소스 검색

docs: update output_files.md to reflect significant changes in VLM backend output for version 2.5

myhloli 2 달 전
부모
커밋
2e945adcc0
1개의 변경된 파일43개의 추가작업 그리고 37개의 파일을 삭제
  1. 43 37
      docs/zh/reference/output_files.md

+ 43 - 37
docs/zh/reference/output_files.md

@@ -533,9 +533,16 @@ inference_result: list[PageInferenceResults] = []
 
 **文件命名格式**:`{原文件名}_middle.json`
 
+##### 文件格式说明
 vlm 后端的 middle.json 文件结构与 pipeline 后端类似,但存在以下差异: 
-- list变成二级block,增加"sub_type"字段区分list类型,"sub_type"可选"text"(文本类型),"ref_text"(引用类型)
-  - 示例数据
+1. list变成二级block,增加"sub_type"字段区分list类型,"sub_type"可选"text"(文本类型),"ref_text"(引用类型)
+2. 增加code类型block,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
+3. `discarded_blocks`内元素type增加"header"、"footer"、"page_number"、"aside_text"、"page_footnote"类型
+4. 所有block增加`angle`字段,用来表示旋转角度,0,90,180,270
+
+
+##### 示例数据
+- list block 示例
     ```json
     {
         "bbox": [
@@ -618,8 +625,7 @@ vlm 后端的 middle.json 文件结构与 pipeline 后端类似,但存在以
         "sub_type": "text"
     }
     ```
-- 增加code类型block,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
-  - 示例数据 
+- code block 示例
     ```json
     {
         "type": "code",
@@ -701,16 +707,19 @@ vlm 后端的 middle.json 文件结构与 pipeline 后端类似,但存在以
         "sub_type": "code"
     }
     ```
-- `discarded_blocks`内元素type增加"header"、"footer"、"page_number"、"aside_text"、"page_footnote"类型
-- 所有block增加`angle`字段,用来表示旋转角度,0,90,180,270
 
 #### 内容列表 (content_list.json)
 
 **文件命名格式**:`{原文件名}_content_list.json`
 
+##### 文件格式说明
 vlm 后端的 content_list.json 文件结构与 pipeline 后端类似,伴随本次middle.json的变化,做了以下调整:
-- 新增`code`类型,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
-  - 示例数据 
+1. 新增`code`类型,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
+2. 新增`list`类型,list类型包含两种"sub_type",分别是"text"和"ref_text" 
+3. 增加所有所有`discarded_blocks`的输出内容
+
+##### 示例数据
+- code 类型 content
     ```json
     {
         "type": "code",
@@ -728,8 +737,7 @@ vlm 后端的 content_list.json 文件结构与 pipeline 后端类似,伴随
         "page_idx": 0
     }
     ```
-- 新增`list`类型,list类型包含两种"sub_type",分别是"text"和"ref_text"
-  - 示例数据
+- list 类型 content
     ```json
     {
         "type": "list",
@@ -749,33 +757,31 @@ vlm 后端的 content_list.json 文件结构与 pipeline 后端类似,伴随
         "page_idx": 0
     }
     ```
-- 增加所有所有`discarded_blocks`的输出内容
-  - 示例数据 
-    ```json
-    [{
-        "type": "header",
-        "text": "Journal of Hydrology 310 (2005) 253-265",
-        "bbox": [
-            363,
-            164,
-            623,
-            177
-        ],
-        "page_idx": 0
-    },
-    {
-        "type": "page_footnote",
-        "text": "* Corresponding author. Address: Forest Science Centre, Department of Sustainability and Environment, P.O. Box 137, Heidelberg, Vic. 3084, Australia. Tel.: +61 3 9450 8719; fax: +61 3 9450 8644.",
-        "bbox": [
-            71,
-            815,
-            915,
-            841
-        ],
-        "page_idx": 0
-    }]
-    ```
-
+- discarded 类型 content
+  ```json
+  [{
+      "type": "header",
+      "text": "Journal of Hydrology 310 (2005) 253-265",
+      "bbox": [
+          363,
+          164,
+          623,
+          177
+      ],
+      "page_idx": 0
+  },
+  {
+      "type": "page_footnote",
+      "text": "* Corresponding author. Address: Forest Science Centre, Department of Sustainability and Environment, P.O. Box 137, Heidelberg, Vic. 3084, Australia. Tel.: +61 3 9450 8719; fax: +61 3 9450 8644.",
+      "bbox": [
+          71,
+          815,
+          915,
+          841
+      ],
+      "page_idx": 0
+  }]
+  ```
 
 
 ## 总结