xu rui 11 месяцев назад
Родитель
Сommit
91d825b29a

+ 5 - 1
next_docs/requirements.txt

@@ -1,3 +1,7 @@
+numpy==1.26.4
+click==8.1.7
+fast-langdetect==0.2.2
+Brotli==1.1.0
 boto3>=1.28.43
 loguru>=0.6.0
 myst-parser
@@ -9,4 +13,4 @@ sphinx-argparse>=0.5.2
 sphinx-book-theme>=1.1.3
 sphinx-copybutton>=0.5.2
 sphinx_rtd_theme>=3.0.1
-autodoc_pydantic>=2.2.0
+autodoc_pydantic>=2.2.0

+ 59 - 66
next_docs/zh_cn/user_guide/tutorial/output_file_description.rst

@@ -137,49 +137,45 @@ poly 坐标的格式 [x0, y0, x1, y1, x2, y2, x3, y3],
 some_pdf_middle.json
 ~~~~~~~~~~~~~~~~~~~~
 
-+-----------+----------------------------------------------------------+
-| 字段名    | 解释                                                     |
-+===========+==========================================================+
-| pdf_info  | list,每个                                               |
-|           | 元素都是一个dict,这个dict是每一页pdf的解析结果,详见下表 |
-+-----------+----------------------------------------------------------+
-|              | ocr \| txt,用来标识本次解析的中间态使用的模式           |
-| \_parse_type |                                                          |
-+-----------+----------------------------------------------------------+
-|                | string, 表示本次解析使用的 magic-pdf 的版本号            |
-| \_version_name |                                                          |
-+-----------+----------------------------------------------------------+
++--------------------+----------------------------------------------------------+
+| 字段名              | 解释                                                    |
++====================+==========================================================+
+| pdf_info           | list,每个元素都是一个                                   |
+|                    | dict,这个dict是每一页pdf的解析结果,详见下表            |
++--------------------+----------------------------------------------------------+
+| \_parse_type       | ocr \| txt,用来标识本次解析的中间态使用的模式           |
++--------------------+----------------------------------------------------------+
+| \_version_name     | string,表示本次解析使用的 magic-pdf 的版本号            |
++-------------------------------------------------------------------------------+
 
 **pdf_info** 字段结构说明
 
-+--------------+-------------------------------------------------------+
-| 字段名       | 解释                                                  |
-+==============+=======================================================+
-|                 | pdf预处理后,未分段的中间结果                         |
-| preeproc_blocks |                                                       |
-+--------------+-------------------------------------------------------+
-|               | 布局分割的结果,                                      |
-| layout_bboxes | 含有布局的方向(垂直、水平),和bbox,按阅读顺序排序  |
-+--------------+-------------------------------------------------------+
-| page_idx     | 页码,从0开始                                         |
-+--------------+-------------------------------------------------------+
-| page_size    | 页面的宽度和高度                                      |
-+--------------+-------------------------------------------------------+
-| \            | 布局树状结构                                          |
-| _layout_tree |                                                       |
-+--------------+-------------------------------------------------------+
-| images       | list,每个元素是一个dict,每个dict表示一个img_block   |
-+--------------+-------------------------------------------------------+
-| tables       | list,每个元素是一个dict,每个dict表示一个table_block |
-+--------------+-------------------------------------------------------+
-|                     | list,每个元素                                        |
-| interline_equations | 是一个dict,每个dict表示一个interline_equation_block  |
-+--------------+-------------------------------------------------------+
-|                  | List, 模型返回的需要drop的block信息                   |
-| discarded_blocks |                                                       |
-+--------------+-------------------------------------------------------+
-| para_blocks  | 将preproc_blocks进行分段之后的结果                    |
-+--------------+-------------------------------------------------------+
++---------------------+-------------------------------------------------------+
+| 字段名               | 解释                                                 |
++=====================+=======================================================+
+| preproc_blocks      | pdf预处理后,未分段的中间结果                         |
++---------------------+-------------------------------------------------------+
+|                     | 布局分割的结果,                                      |
+| layout_bboxes       | 含有布局的方向(垂直、水平),和bbox,按阅读顺序排序  |
++---------------------+-------------------------------------------------------+
+| page_idx            | 页码,从0开始                                         |
++---------------------+-------------------------------------------------------+
+| page_size           | 页面的宽度和高度                                      |
++---------------------+-------------------------------------------------------+
+| \_layout_tree       | 布局树状结构                                          |
++---------------------+-------------------------------------------------------+
+| images              | list,每个元素是一个dict,每个dict表示一个img_block   |
++---------------------+-------------------------------------------------------+
+| tables              | list,每个元素是一个dict,每个dict表示一个table_block |
++---------------------+-------------------------------------------------------+
+|                     | list,每个元素是一个                                  |
+| interline_equations | dict,每个dict表示一个interline_equation_block        |
++---------------------+-------------------------------------------------------+
+|                     | List, 模型返回的需要drop的block信息                   |
+| discarded_blocks    |                                                       |
++---------------------+-------------------------------------------------------+
+| para_blocks         | 将preproc_blocks进行分段之后的结果                    |
++---------------------+-------------------------------------------------------+
 
 上表中 ``para_blocks``
 是个dict的数组,每个dict是一个block结构,block最多支持一次嵌套
@@ -200,20 +196,18 @@ blocks list,里面的每个元素都是一个dict格式的二级block
 
 二级block中的字段包括
 
-+-----+----------------------------------------------------------------+
-| 字  | 解释                                                           |
-| 段  |                                                                |
-| 名  |                                                                |
-+=====+================================================================+
-|      | block类型                                                      |
-| type |                                                                |
-+-----+----------------------------------------------------------------+
-|      | block矩形框坐标                                                |
-| bbox |                                                                |
-+-----+----------------------------------------------------------------+
-|       | list,每个元素都是一个dict表示的line,用来描述一行信息的构成   |
-| lines |                                                                |
-+-----+----------------------------------------------------------------+
++----------+----------------------------------------------------------------+
+| 字       | 解释                                                           |
+| 段       |                                                                |
+| 名       |                                                                |
++==========+================================================================+
+|          | block类型                                                      |
+| type     |                                                                |
++----------+----------------------------------------------------------------+
+| bbox     | block矩形框坐标                                                |
++----------+----------------------------------------------------------------+
+| lines    | list,每个元素都是一个dict表示的line,用来描述一行信息的构成   |
++----------+----------------------------------------------------------------+
 
 二级block的类型详解
 
@@ -237,22 +231,21 @@ interline_equation 行间公式块
 
 line 的 字段格式如下
 
-+----+-----------------------------------------------------------------+
-| 字 | 解释                                                            |
-| 段 |                                                                 |
-| 名 |                                                                 |
-+====+=================================================================+
-| bbox  | line的矩形框坐标                                                |
-|       |                                                                 |
-+----+-----------------------------------------------------------------+
-| spans  | list,                                                       |
-|        | 每个元素都是一个dict表示的span,用来描述一个最小组成单元的构成  |
-+----+-----------------------------------------------------------------+
++-----------+-----------------------------------------------------------------+
+| 字        | 解释                                                            |
+| 段        |                                                                 |
+| 名        |                                                                 |
++===========+=================================================================+
+| bbox      | line的矩形框坐标                                                |
++-----------+-----------------------------------------------------------------+
+| spans     | list,                                                          |
+|           | 每个元素都是一个dict表示的span,用来描述一个最小组成单元的构成  |
++-----------+-----------------------------------------------------------------+
 
 **span**
 
 +------------+---------------------------------------------------------+
-| 字段名     | 解释                                                    |
+| 字段名      | 解释                                                   |
 +============+=========================================================+
 | bbox       | span的矩形框坐标                                        |
 +------------+---------------------------------------------------------+