|
|
@@ -137,49 +137,45 @@ poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3],
|
|
|
some_pdf_middle.json
|
|
|
~~~~~~~~~~~~~~~~~~~~
|
|
|
|
|
|
-+-----------+----------------------------------------------------------+
|
|
|
-| 字段名 | 解释 |
|
|
|
-+===========+==========================================================+
|
|
|
-| pdf_info | list,每个 |
|
|
|
-| | 元素都是一个dict,这个dict是每一页pdf的解析结果,详见下表 |
|
|
|
-+-----------+----------------------------------------------------------+
|
|
|
-| | ocr \| txt,用来标识本次解析的中间态使用的模式 |
|
|
|
-| \_parse_type | |
|
|
|
-+-----------+----------------------------------------------------------+
|
|
|
-| | string, 表示本次解析使用的 magic-pdf 的版本号 |
|
|
|
-| \_version_name | |
|
|
|
-+-----------+----------------------------------------------------------+
|
|
|
++--------------------+----------------------------------------------------------+
|
|
|
+| 字段名 | 解释 |
|
|
|
++====================+==========================================================+
|
|
|
+| pdf_info | list,每个元素都是一个 |
|
|
|
+| | dict,这个dict是每一页pdf的解析结果,详见下表 |
|
|
|
++--------------------+----------------------------------------------------------+
|
|
|
+| \_parse_type | ocr \| txt,用来标识本次解析的中间态使用的模式 |
|
|
|
++--------------------+----------------------------------------------------------+
|
|
|
+| \_version_name | string,表示本次解析使用的 magic-pdf 的版本号 |
|
|
|
++-------------------------------------------------------------------------------+
|
|
|
|
|
|
**pdf_info** 字段结构说明
|
|
|
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| 字段名 | 解释 |
|
|
|
-+==============+=======================================================+
|
|
|
-| | pdf预处理后,未分段的中间结果 |
|
|
|
-| preeproc_blocks | |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| | 布局分割的结果, |
|
|
|
-| layout_bboxes | 含有布局的方向(垂直、水平),和bbox,按阅读顺序排序 |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| page_idx | 页码,从0开始 |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| page_size | 页面的宽度和高度 |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| \ | 布局树状结构 |
|
|
|
-| _layout_tree | |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| images | list,每个元素是一个dict,每个dict表示一个img_block |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| tables | list,每个元素是一个dict,每个dict表示一个table_block |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| | list,每个元素 |
|
|
|
-| interline_equations | 是一个dict,每个dict表示一个interline_equation_block |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| | List, 模型返回的需要drop的block信息 |
|
|
|
-| discarded_blocks | |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
-| para_blocks | 将preproc_blocks进行分段之后的结果 |
|
|
|
-+--------------+-------------------------------------------------------+
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| 字段名 | 解释 |
|
|
|
++=====================+=======================================================+
|
|
|
+| preproc_blocks | pdf预处理后,未分段的中间结果 |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| | 布局分割的结果, |
|
|
|
+| layout_bboxes | 含有布局的方向(垂直、水平),和bbox,按阅读顺序排序 |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| page_idx | 页码,从0开始 |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| page_size | 页面的宽度和高度 |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| \_layout_tree | 布局树状结构 |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| images | list,每个元素是一个dict,每个dict表示一个img_block |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| tables | list,每个元素是一个dict,每个dict表示一个table_block |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| | list,每个元素是一个 |
|
|
|
+| interline_equations | dict,每个dict表示一个interline_equation_block |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| | List, 模型返回的需要drop的block信息 |
|
|
|
+| discarded_blocks | |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
+| para_blocks | 将preproc_blocks进行分段之后的结果 |
|
|
|
++---------------------+-------------------------------------------------------+
|
|
|
|
|
|
上表中 ``para_blocks``
|
|
|
是个dict的数组,每个dict是一个block结构,block最多支持一次嵌套
|
|
|
@@ -200,20 +196,18 @@ blocks list,里面的每个元素都是一个dict格式的二级block
|
|
|
|
|
|
二级block中的字段包括
|
|
|
|
|
|
-+-----+----------------------------------------------------------------+
|
|
|
-| 字 | 解释 |
|
|
|
-| 段 | |
|
|
|
-| 名 | |
|
|
|
-+=====+================================================================+
|
|
|
-| | block类型 |
|
|
|
-| type | |
|
|
|
-+-----+----------------------------------------------------------------+
|
|
|
-| | block矩形框坐标 |
|
|
|
-| bbox | |
|
|
|
-+-----+----------------------------------------------------------------+
|
|
|
-| | list,每个元素都是一个dict表示的line,用来描述一行信息的构成 |
|
|
|
-| lines | |
|
|
|
-+-----+----------------------------------------------------------------+
|
|
|
++----------+----------------------------------------------------------------+
|
|
|
+| 字 | 解释 |
|
|
|
+| 段 | |
|
|
|
+| 名 | |
|
|
|
++==========+================================================================+
|
|
|
+| | block类型 |
|
|
|
+| type | |
|
|
|
++----------+----------------------------------------------------------------+
|
|
|
+| bbox | block矩形框坐标 |
|
|
|
++----------+----------------------------------------------------------------+
|
|
|
+| lines | list,每个元素都是一个dict表示的line,用来描述一行信息的构成 |
|
|
|
++----------+----------------------------------------------------------------+
|
|
|
|
|
|
二级block的类型详解
|
|
|
|
|
|
@@ -237,22 +231,21 @@ interline_equation 行间公式块
|
|
|
|
|
|
line 的 字段格式如下
|
|
|
|
|
|
-+----+-----------------------------------------------------------------+
|
|
|
-| 字 | 解释 |
|
|
|
-| 段 | |
|
|
|
-| 名 | |
|
|
|
-+====+=================================================================+
|
|
|
-| bbox | line的矩形框坐标 |
|
|
|
-| | |
|
|
|
-+----+-----------------------------------------------------------------+
|
|
|
-| spans | list, |
|
|
|
-| | 每个元素都是一个dict表示的span,用来描述一个最小组成单元的构成 |
|
|
|
-+----+-----------------------------------------------------------------+
|
|
|
++-----------+-----------------------------------------------------------------+
|
|
|
+| 字 | 解释 |
|
|
|
+| 段 | |
|
|
|
+| 名 | |
|
|
|
++===========+=================================================================+
|
|
|
+| bbox | line的矩形框坐标 |
|
|
|
++-----------+-----------------------------------------------------------------+
|
|
|
+| spans | list, |
|
|
|
+| | 每个元素都是一个dict表示的span,用来描述一个最小组成单元的构成 |
|
|
|
++-----------+-----------------------------------------------------------------+
|
|
|
|
|
|
**span**
|
|
|
|
|
|
+------------+---------------------------------------------------------+
|
|
|
-| 字段名 | 解释 |
|
|
|
+| 字段名 | 解释 |
|
|
|
+============+=========================================================+
|
|
|
| bbox | span的矩形框坐标 |
|
|
|
+------------+---------------------------------------------------------+
|