|
|
@@ -62,7 +62,7 @@ inference_result: list[PageInferenceResults] = []
|
|
|
|
|
|
```
|
|
|
|
|
|
-poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3], 分别表示左上、右上、右下、左小四点的坐标
|
|
|
+poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3], 分别表示左上、右上、右下、左下四点的坐标
|
|
|

|
|
|
|
|
|
|
|
|
@@ -122,10 +122,11 @@ poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3], 分别表示左上、右
|
|
|
|
|
|
### middle.json
|
|
|
|
|
|
-| 字段名 | 解释 |
|
|
|
-| :-----| :---- |
|
|
|
-|pdf_info |list,每个元素都是一个dict,这个dict是每一页pdf的解析结果,详见下表 |
|
|
|
-|_parse_type | ocr \| txt,用来标识本次解析的中间态使用的模式 |
|
|
|
+| 字段名 | 解释 |
|
|
|
+| :-----|:------------------------------------------|
|
|
|
+|pdf_info | list,每个元素都是一个dict,这个dict是每一页pdf的解析结果,详见下表 |
|
|
|
+|_parse_type | ocr \| txt,用来标识本次解析的中间态使用的模式 |
|
|
|
+|_version_name | string, 表示本次解析使用的 magic-pdf 的版本号 |
|
|
|
|
|
|
<br>
|
|
|
|
|
|
@@ -153,8 +154,9 @@ poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3], 分别表示左上、右
|
|
|
|
|
|
外层block被称为一级block,一级block中的字段包括
|
|
|
|
|
|
-| type | block类型(table\|image)|
|
|
|
+| 字段名 | 解释 |
|
|
|
| :-----| :---- |
|
|
|
+| type | block类型(table\|image)|
|
|
|
|bbox | block矩形框坐标 |
|
|
|
|blocks |list,里面的每个元素都是一个dict格式的二级block |
|
|
|
|
|
|
@@ -163,21 +165,23 @@ poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3], 分别表示左上、右
|
|
|
|
|
|
二级block中的字段包括
|
|
|
|
|
|
-| type | desc |
|
|
|
+| 字段名 | 解释 |
|
|
|
| :-----| :---- |
|
|
|
+| type | block类型 |
|
|
|
| bbox | block矩形框坐标 |
|
|
|
| lines | list,每个元素都是一个dict表示的line,用来描述一行信息的构成|
|
|
|
|
|
|
二级block的类型详解
|
|
|
-| type | desc |
|
|
|
-| :-----| :---- |
|
|
|
-| image_body | 图像的本体 |
|
|
|
-| image_caption | 图像的描述文本 |
|
|
|
-| table_body | 表格本体 |
|
|
|
-| table_caption | 表格的描述文本 |
|
|
|
-| table_footnote | 表格的脚注 |
|
|
|
-| text | 文本块 |
|
|
|
-| title | 标题块 |
|
|
|
+
|
|
|
+| type | desc |
|
|
|
+|:-------------------| :---- |
|
|
|
+| image_body | 图像的本体 |
|
|
|
+| image_caption | 图像的描述文本 |
|
|
|
+| table_body | 表格本体 |
|
|
|
+| table_caption | 表格的描述文本 |
|
|
|
+| table_footnote | 表格的脚注 |
|
|
|
+| text | 文本块 |
|
|
|
+| title | 标题块 |
|
|
|
| interline_equation | 行间公式块|
|
|
|
|
|
|
<br>
|
|
|
@@ -185,6 +189,7 @@ poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3], 分别表示左上、右
|
|
|
**line**
|
|
|
|
|
|
line 的 字段格式如下
|
|
|
+
|
|
|
| 字段名 | 解释 |
|
|
|
| :-----| :---- |
|
|
|
| bbox | line的矩形框坐标 |
|