|
|
@@ -533,9 +533,16 @@ inference_result: list[PageInferenceResults] = []
|
|
|
|
|
|
**文件命名格式**:`{原文件名}_middle.json`
|
|
|
|
|
|
+##### 文件格式说明
|
|
|
vlm 后端的 middle.json 文件结构与 pipeline 后端类似,但存在以下差异:
|
|
|
-- list变成二级block,增加"sub_type"字段区分list类型,"sub_type"可选"text"(文本类型),"ref_text"(引用类型)
|
|
|
- - 示例数据
|
|
|
+1. list变成二级block,增加"sub_type"字段区分list类型,"sub_type"可选"text"(文本类型),"ref_text"(引用类型)
|
|
|
+2. 增加code类型block,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
|
|
|
+3. `discarded_blocks`内元素type增加"header"、"footer"、"page_number"、"aside_text"、"page_footnote"类型
|
|
|
+4. 所有block增加`angle`字段,用来表示旋转角度,0,90,180,270
|
|
|
+
|
|
|
+
|
|
|
+##### 示例数据
|
|
|
+- list block 示例
|
|
|
```json
|
|
|
{
|
|
|
"bbox": [
|
|
|
@@ -618,8 +625,7 @@ vlm 后端的 middle.json 文件结构与 pipeline 后端类似,但存在以
|
|
|
"sub_type": "text"
|
|
|
}
|
|
|
```
|
|
|
-- 增加code类型block,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
|
|
|
- - 示例数据
|
|
|
+- code block 示例
|
|
|
```json
|
|
|
{
|
|
|
"type": "code",
|
|
|
@@ -701,16 +707,19 @@ vlm 后端的 middle.json 文件结构与 pipeline 后端类似,但存在以
|
|
|
"sub_type": "code"
|
|
|
}
|
|
|
```
|
|
|
-- `discarded_blocks`内元素type增加"header"、"footer"、"page_number"、"aside_text"、"page_footnote"类型
|
|
|
-- 所有block增加`angle`字段,用来表示旋转角度,0,90,180,270
|
|
|
|
|
|
#### 内容列表 (content_list.json)
|
|
|
|
|
|
**文件命名格式**:`{原文件名}_content_list.json`
|
|
|
|
|
|
+##### 文件格式说明
|
|
|
vlm 后端的 content_list.json 文件结构与 pipeline 后端类似,伴随本次middle.json的变化,做了以下调整:
|
|
|
-- 新增`code`类型,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
|
|
|
- - 示例数据
|
|
|
+1. 新增`code`类型,code类型包含两种"sub_type",分别是"code"和"algorithm",至少有code_body,可选code_caption
|
|
|
+2. 新增`list`类型,list类型包含两种"sub_type",分别是"text"和"ref_text"
|
|
|
+3. 增加所有所有`discarded_blocks`的输出内容
|
|
|
+
|
|
|
+##### 示例数据
|
|
|
+- code 类型 content
|
|
|
```json
|
|
|
{
|
|
|
"type": "code",
|
|
|
@@ -728,8 +737,7 @@ vlm 后端的 content_list.json 文件结构与 pipeline 后端类似,伴随
|
|
|
"page_idx": 0
|
|
|
}
|
|
|
```
|
|
|
-- 新增`list`类型,list类型包含两种"sub_type",分别是"text"和"ref_text"
|
|
|
- - 示例数据
|
|
|
+- list 类型 content
|
|
|
```json
|
|
|
{
|
|
|
"type": "list",
|
|
|
@@ -749,33 +757,31 @@ vlm 后端的 content_list.json 文件结构与 pipeline 后端类似,伴随
|
|
|
"page_idx": 0
|
|
|
}
|
|
|
```
|
|
|
-- 增加所有所有`discarded_blocks`的输出内容
|
|
|
- - 示例数据
|
|
|
- ```json
|
|
|
- [{
|
|
|
- "type": "header",
|
|
|
- "text": "Journal of Hydrology 310 (2005) 253-265",
|
|
|
- "bbox": [
|
|
|
- 363,
|
|
|
- 164,
|
|
|
- 623,
|
|
|
- 177
|
|
|
- ],
|
|
|
- "page_idx": 0
|
|
|
- },
|
|
|
- {
|
|
|
- "type": "page_footnote",
|
|
|
- "text": "* Corresponding author. Address: Forest Science Centre, Department of Sustainability and Environment, P.O. Box 137, Heidelberg, Vic. 3084, Australia. Tel.: +61 3 9450 8719; fax: +61 3 9450 8644.",
|
|
|
- "bbox": [
|
|
|
- 71,
|
|
|
- 815,
|
|
|
- 915,
|
|
|
- 841
|
|
|
- ],
|
|
|
- "page_idx": 0
|
|
|
- }]
|
|
|
- ```
|
|
|
-
|
|
|
+- discarded 类型 content
|
|
|
+ ```json
|
|
|
+ [{
|
|
|
+ "type": "header",
|
|
|
+ "text": "Journal of Hydrology 310 (2005) 253-265",
|
|
|
+ "bbox": [
|
|
|
+ 363,
|
|
|
+ 164,
|
|
|
+ 623,
|
|
|
+ 177
|
|
|
+ ],
|
|
|
+ "page_idx": 0
|
|
|
+ },
|
|
|
+ {
|
|
|
+ "type": "page_footnote",
|
|
|
+ "text": "* Corresponding author. Address: Forest Science Centre, Department of Sustainability and Environment, P.O. Box 137, Heidelberg, Vic. 3084, Australia. Tel.: +61 3 9450 8719; fax: +61 3 9450 8644.",
|
|
|
+ "bbox": [
|
|
|
+ 71,
|
|
|
+ 815,
|
|
|
+ 915,
|
|
|
+ 841
|
|
|
+ ],
|
|
|
+ "page_idx": 0
|
|
|
+ }]
|
|
|
+ ```
|
|
|
|
|
|
|
|
|
## 总结
|