Browse Source

docs: streamline output_files.md by removing unnecessary sections and enhancing note clarity

myhloli 4 months ago
parent
commit
cd2459b37c
1 changed files with 12 additions and 15 deletions
  1. 12 15
      docs/zh/usage/output_files.md

+ 12 - 15
docs/zh/usage/output_files.md

@@ -1,17 +1,5 @@
 # MinerU 输出文件说明
 
-## 目录
-
-- [概览](#概览)
-- [可视化调试文件](#可视化调试文件)
-  - [布局分析文件 (layout.pdf)](#布局分析文件-layoutpdf)
-  - [文本片段文件 (spans.pdf)](#文本片段文件-spanspdf)
-- [结构化数据文件](#结构化数据文件)
-  - [模型推理结果 (model.json)](#模型推理结果-modeljson)
-  - [VLM 输出结果 (model_output.txt)](#vlm-输出结果-model_outputtxt)
-  - [中间处理结果 (middle.json)](#中间处理结果-middlejson)
-  - [内容列表 (content_list.json)](#内容列表-content_listjson)
-
 ## 概览
 
 `mineru` 命令执行后,除了输出主要的 markdown 文件外,还会生成多个辅助文件用于调试、质检和进一步处理。这些文件包括:
@@ -28,11 +16,13 @@
 **文件命名格式**:`{原文件名}_layout.pdf`
 
 **功能说明**:
+
 - 可视化展示每一页的布局分析结果
 - 每个检测框右上角的数字表示阅读顺序
 - 使用不同背景色块区分不同类型的内容块
 
 **使用场景**:
+
 - 检查布局分析是否正确
 - 确认阅读顺序是否合理
 - 调试布局相关问题
@@ -41,15 +31,18 @@
 
 ### 文本片段文件 (spans.pdf)
 
-> **注意**:仅适用于 pipeline 后端
+> [!NOTE]
+> 仅适用于 pipeline 后端
 
 **文件命名格式**:`{原文件名}_spans.pdf`
 
 **功能说明**:
+
 - 根据 span 类型使用不同颜色线框标注页面内容
 - 用于质量检查和问题排查
 
 **使用场景**:
+
 - 快速排查文本丢失问题
 - 检查行内公式识别情况
 - 验证文本分割准确性
@@ -60,7 +53,8 @@
 
 ### 模型推理结果 (model.json)
 
-> **注意**:仅适用于 pipeline 后端
+> [!NOTE]
+> 仅适用于 pipeline 后端
 
 **文件命名格式**:`{原文件名}_model.json`
 
@@ -112,6 +106,7 @@ inference_result: list[PageInferenceResults] = []
 #### 坐标系统说明
 
 `poly` 坐标格式:`[x0, y0, x1, y1, x2, y2, x3, y3]`
+
 - 分别表示左上、右上、右下、左下四点的坐标
 - 坐标原点在页面左上角
 
@@ -145,7 +140,8 @@ inference_result: list[PageInferenceResults] = []
 
 ### VLM 输出结果 (model_output.txt)
 
-> **注意**:仅适用于 VLM 后端
+> [!NOTE]
+> 仅适用于 VLM 后端
 
 **文件命名格式**:`{原文件名}_model_output.txt`
 
@@ -324,6 +320,7 @@ inference_result: list[PageInferenceResults] = []
 #### 文本层级标识
 
 通过 `text_level` 字段区分文本层级:
+
 - 无 `text_level` 或 `text_level: 0`:正文文本
 - `text_level: 1`:一级标题
 - `text_level: 2`:二级标题