---
comments: true
---
# 通用版面解析v2产线使用教程
## 1. 通用版面解析v2产线介绍
版面解析是一种从文档图像中提取结构化信息的技术,主要用于将复杂的文档版面转换为机器可读的数据格式。这项技术在文档管理、信息提取和数据数字化等领域具有广泛的应用。版面解析通过结合光学字符识别(OCR)、图像处理和机器学习算法,能够识别和提取文档中的文本块、标题、段落、图片、表格以及其他版面元素。此过程通常包括版面分析、元素分析和数据格式化三个主要步骤,最终生成结构化的文档数据,提升数据处理的效率和准确性。通用版面解析v2产线在通用版面解析v1产线的基础上,强化了版面区域检测、表格识别、公式识别的能力,增加了多栏阅读顺序的恢复能力、结果转换 Markdown 文件的能力,在多种文档数据中,表现优异,可以处理较复杂的文档数据。本产线同时提供了灵活的服务化部署方式,支持在多种硬件上使用多种编程语言调用。不仅如此,本产线也提供了二次开发的能力,您可以基于本产线在您自己的数据集上训练调优,训练后的模型也可以无缝集成。
通用版面解析v2产线中包含必选的版面区域分析模块、通用OCR子产线,以及可选的文档图像预处理子产线、表格识别子产线、印章识别子产线和公式识别子产线。
如您更考虑模型精度,请选择精度较高的模型,如您更考虑模型推理速度,请选择推理速度较快的模型,如您更考虑模型存储大小,请选择存储大小较小的模型。
👉模型列表详情
文档图像方向分类模块(可选):
| 模型 | 模型下载链接 |
Top-1 Acc(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-LCNet_x1_0_doc_ori | 推理模型/训练模型 |
99.06 |
3.84845 |
9.23735 |
7 |
基于PP-LCNet_x1_0的文档图像分类模型,含有四个类别,即0度,90度,180度,270度 |
注:以上精度指标的评估集是自建的数据集,覆盖证件和文档等多个场景,包含 1000 张图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为 8,精度类型为 FP32。
文本图像矫正模块(可选):
| 模型 | 模型下载链接 |
CER |
模型存储大小(M) |
介绍 |
| UVDoc | 推理模型/训练模型 |
0.179 |
30.3 M |
高精度文本图像矫正模型 |
注:模型的精度指标测量自 DocUNet benchmark。
版面区域检测模块模型(必选):
| 模型 | 模型下载链接 |
mAP(0.5)(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-DocLayout-L | 推理模型/训练模型 |
90.4 |
34.5252 |
1454.27 |
123.76 M |
基于RT-DETR-L在包含中英文论文、杂志、合同、书本、试卷和研报等场景的自建数据集训练的高精度版面区域定位模型 |
| PP-DocLayout-M | 推理模型/训练模型 |
75.2 |
15.9 |
160.1 |
22.578 |
基于PicoDet-L在包含中英文论文、杂志、合同、书本、试卷和研报等场景的自建数据集训练的精度效率平衡的版面区域定位模型 |
| PP-DocLayout-S | 推理模型/训练模型 |
70.9 |
13.8 |
46.7 |
4.834 |
基于PicoDet-S在中英文论文、杂志、合同、书本、试卷和研报等场景上自建数据集训练的高效率版面区域定位模型 |
| PicoDet_layout_1x | 推理模型/训练模型 |
86.8 |
13.0 |
91.3 |
7.4 |
基于PicoDet-1x在PubLayNet数据集训练的高效率版面区域定位模型,可定位包含文字、标题、表格、图片以及列表这5类区域 |
| PicoDet_layout_1x_table | 推理模型/训练模型 |
95.7 |
12.623 |
90.8934 |
7.4 M |
基于PicoDet-1x在自建数据集训练的高效率版面区域定位模型,可定位包含表格这1类区域 |
| PicoDet-S_layout_3cls | 推理模型/训练模型 |
87.1 |
13.5 |
45.8 |
4.8 |
基于PicoDet-S轻量模型在中英文论文、杂志和研报等场景上自建数据集训练的高效率版面区域定位模型,包含3个类别:表格,图像和印章 |
| PicoDet-S_layout_17cls | 推理模型/训练模型 |
70.3 |
13.6 |
46.2 |
4.8 |
基于PicoDet-S轻量模型在中英文论文、杂志和研报等场景上自建数据集训练的高效率版面区域定位模型,包含17个版面常见类别,分别是:段落标题、图片、文本、数字、摘要、内容、图表标题、公式、表格、表格标题、参考文献、文档标题、脚注、页眉、算法、页脚、印章 |
| PicoDet-L_layout_3cls | 推理模型/训练模型 |
89.3 |
15.7 |
159.8 |
22.6 |
基于PicoDet-L在中英文论文、杂志和研报等场景上自建数据集训练的高效率版面区域定位模型,包含3个类别:表格,图像和印章 |
| PicoDet-L_layout_17cls | 推理模型/训练模型 |
79.9 |
17.2 |
160.2 |
22.6 |
基于PicoDet-L在中英文论文、杂志和研报等场景上自建数据集训练的高效率版面区域定位模型,包含17个版面常见类别,分别是:段落标题、图片、文本、数字、摘要、内容、图表标题、公式、表格、表格标题、参考文献、文档标题、脚注、页眉、算法、页脚、印章 |
| RT-DETR-H_layout_3cls | 推理模型/训练模型 |
95.9 |
114.6 |
3832.6 |
470.1 |
基于RT-DETR-H在中英文论文、杂志和研报等场景上自建数据集训练的高精度版面区域定位模型,包含3个类别:表格,图像和印章 |
| RT-DETR-H_layout_17cls | 推理模型/训练模型 |
92.6 |
115.1 |
3827.2 |
470.2 |
基于RT-DETR-H在中英文论文、杂志和研报等场景上自建数据集训练的高精度版面区域定位模型,包含17个版面常见类别,分别是:段落标题、图片、文本、数字、摘要、内容、图表标题、公式、表格、表格标题、参考文献、文档标题、脚注、页眉、算法、页脚、印章 |
注:以上精度指标的评估集是 PaddleOCR 自建的版面区域分析数据集,包含中英文论文、杂志和研报等常见的 1w 张文档类型图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为 8,精度类型为 FP32。
表格结构识别模块(可选):
| 模型 | 模型下载链接 |
精度(%) |
GPU推理耗时 (ms) |
CPU推理耗时(ms) |
模型存储大小 (M) |
介绍 |
| SLANet | 推理模型/训练模型 |
59.52 |
522.536 |
1845.37 |
6.9 M |
SLANet 是百度飞桨视觉团队自研的表格结构识别模型。该模型通过采用CPU 友好型轻量级骨干网络PP-LCNet、高低层特征融合模块CSP-PAN、结构与位置信息对齐的特征解码模块SLA Head,大幅提升了表格结构识别的精度和推理速度。 |
| SLANet_plus | 推理模型/训练模型 |
63.69 |
522.536 |
1845.37 |
6.9 M |
SLANet_plus 是百度飞桨视觉团队自研的表格结构识别模型SLANet的增强版。相较于SLANet,SLANet_plus 对无线表、复杂表格的识别能力得到了大幅提升,并降低了模型对表格定位准确性的敏感度,即使表格定位出现偏移,也能够较准确地进行识别。 |
注:以上精度指标测量PaddleX 内部自建英文表格识别数据集。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
文本检测模块(必选):
| 模型 | 模型下载链接 |
检测Hmean(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-OCRv4_server_det | 推理模型/训练模型 |
82.56 |
83.3501 |
2434.01 |
109 |
PP-OCRv4 的服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 |
| PP-OCRv4_mobile_det | 推理模型/训练模型 |
77.35 |
10.6923 |
120.177 |
4.7 |
PP-OCRv4 的移动端文本检测模型,效率更高,适合在端侧设备部署 |
| PP-OCRv3_mobile_det | 推理模型/训练模型 |
78.68 |
|
|
2.1 |
PP-OCRv3 的移动端文本检测模型,效率更高,适合在端侧设备部署 |
| PP-OCRv3_server_det | 推理模型/训练模型 |
80.11 |
|
|
102.1 |
PP-OCRv3 的服务端文本检测模型,精度更高,适合在性能较好的服务器上部署 |
注:以上精度指标的评估集是 PaddleOCR 自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中检测包含 500 张图片。以上所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
文本识别模块模型(必选):
* 中文识别模型
| 模型 | 模型下载链接 |
识别 Avg Accuracy(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-OCRv4_server_rec_doc | 推理模型/训练模型 |
81.53 |
|
|
74.7 M |
PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上,在更多中文文档数据和PP-OCR训练数据的混合数据训练而成,增加了部分繁体字、日文、特殊字符的识别能力,可支持识别的字符为1.5万+,除文档相关的文字识别能力提升外,也同时提升了通用文字的识别能力 |
| PP-OCRv4_mobile_rec | 推理模型/训练模型 |
78.74 |
7.95018 |
46.7868 |
10.6 M |
PP-OCRv4的轻量级识别模型,推理效率高,可以部署在包含端侧设备的多种硬件设备中 |
| PP-OCRv4_server_rec | 推理模型/训练模型 |
80.61 |
7.19439 |
140.179 |
71.2 M |
PP-OCRv4的服务器端模型,推理精度高,可以部署在多种不同的服务器上 |
| PP-OCRv3_mobile_rec | 推理模型/训练模型 |
72.96 |
|
|
9.2 M |
PP-OCRv3的轻量级识别模型,推理效率高,可以部署在包含端侧设备的多种硬件设备中 |
注:以上精度指标的评估集是 PaddleOCR 自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含 8367 张图片。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
| 模型 | 模型下载链接 |
识别 Avg Accuracy(%) |
GPU推理耗时(ms) |
CPU推理耗时 |
模型存储大小(M) |
介绍 |
| ch_SVTRv2_rec | 推理模型/训练模型 |
68.81 |
8.36801 |
165.706 |
73.9 M |
SVTRv2 是一种由复旦大学视觉与学习实验室(FVL)的OpenOCR团队研发的服务端文本识别模型,其在PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务中荣获一等奖,A榜端到端识别精度相比PP-OCRv4提升6%。
|
注:以上精度指标的评估集是 PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务A榜。 所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
| 模型 | 模型下载链接 |
识别 Avg Accuracy(%) |
GPU推理耗时(ms) |
CPU推理耗时 |
模型存储大小(M) |
介绍 |
| ch_RepSVTR_rec | 推理模型/训练模型 |
65.07 |
10.5047 |
51.5647 |
22.1 M |
RepSVTR 文本识别模型是一种基于SVTRv2 的移动端文本识别模型,其在PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务中荣获一等奖,B榜端到端识别精度相比PP-OCRv4提升2.5%,推理速度持平。 |
注:以上精度指标的评估集是 PaddleOCR算法模型挑战赛 - 赛题一:OCR端到端识别任务B榜。 所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
* 英文识别模型
| 模型 | 模型下载链接 |
识别 Avg Accuracy(%) |
GPU推理耗时(ms) |
CPU推理耗时 |
模型存储大小(M) |
介绍 |
| en_PP-OCRv4_mobile_rec | 推理模型/训练模型 |
70.39 |
|
|
6.8 M |
基于PP-OCRv4识别模型训练得到的超轻量英文识别模型,支持英文、数字识别 |
| en_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
70.69 |
|
|
7.8 M |
基于PP-OCRv3识别模型训练得到的超轻量英文识别模型,支持英文、数字识别 |
* 多语言识别模型
| 模型 | 模型下载链接 |
识别 Avg Accuracy(%) |
GPU推理耗时(ms) |
CPU推理耗时 |
模型存储大小(M) |
介绍 |
| korean_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
60.21 |
|
|
8.6 M |
基于PP-OCRv3识别模型训练得到的超轻量韩文识别模型,支持韩文、数字识别 |
| japan_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
45.69 |
|
|
8.8 M |
基于PP-OCRv3识别模型训练得到的超轻量日文识别模型,支持日文、数字识别 |
| chinese_cht_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
82.06 |
|
|
9.7 M |
基于PP-OCRv3识别模型训练得到的超轻量繁体中文识别模型,支持繁体中文、数字识别 |
| te_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
95.88 |
|
|
7.8 M |
基于PP-OCRv3识别模型训练得到的超轻量泰卢固文识别模型,支持泰卢固文、数字识别 |
| ka_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
96.96 |
|
|
8.0 M |
基于PP-OCRv3识别模型训练得到的超轻量卡纳达文识别模型,支持卡纳达文、数字识别 |
| ta_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
76.83 |
|
|
8.0 M |
基于PP-OCRv3识别模型训练得到的超轻量泰米尔文识别模型,支持泰米尔文、数字识别 |
| latin_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
76.93 |
|
|
7.8 M |
基于PP-OCRv3识别模型训练得到的超轻量拉丁文识别模型,支持拉丁文、数字识别 |
| arabic_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
73.55 |
|
|
7.8 M |
基于PP-OCRv3识别模型训练得到的超轻量阿拉伯字母识别模型,支持阿拉伯字母、数字识别 |
| cyrillic_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
94.28 |
|
|
7.9 M |
基于PP-OCRv3识别模型训练得到的超轻量斯拉夫字母识别模型,支持斯拉夫字母、数字识别 |
| devanagari_PP-OCRv3_mobile_rec | 推理模型/训练模型 |
96.44 |
|
|
7.9 M |
基于PP-OCRv3识别模型训练得到的超轻量梵文字母识别模型,支持梵文字母、数字识别 |
注:以上精度指标的评估集是 PaddleX 自建的多语种数据集。 所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
文本行方向分类模块(可选):
| 模型 |
模型下载链接 |
Top-1 Acc(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-LCNet_x0_25_textline_ori | 推理模型/训练模型 |
95.54 |
- |
- |
0.32 |
基于PP-LCNet_x0_25的文本行分类模型,含有两个类别,即0度,180度 |
注:以上精度指标的评估集是自建的数据集,覆盖证件和文档等多个场景,包含 1000 张图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为 8,精度类型为 FP32。
公式识别模块(可选):
| 模型 | 模型下载链接 |
BLEU score |
normed edit distance |
ExpRate (%) |
GPU推理耗时(ms) |
CPU推理耗时(ms) |
模型存储大小 |
| LaTeX_OCR_rec | 推理模型/训练模型 |
0.8821 |
0.0823 |
40.01 |
- |
- |
89.7 M |
注:以上精度指标测量自 LaTeX-OCR公式识别测试集。以上所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为8,精度类型为 FP32。
印章文本检测模块(可选):
| 模型 | 模型下载链接 |
检测Hmean(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-OCRv4_server_seal_det | 推理模型/训练模型 |
98.21 |
84.341 |
2425.06 |
109 |
PP-OCRv4的服务端印章文本检测模型,精度更高,适合在较好的服务器上部署 |
| PP-OCRv4_mobile_seal_det | 推理模型/训练模型 |
96.47 |
10.5878 |
131.813 |
4.6 |
PP-OCRv4的移动端印章文本检测模型,效率更高,适合在端侧部署 |
注:以上精度指标的评估集是自建的数据集,包含500张圆形印章图像。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为 8,精度类型为 FP32。
文本图像矫正模块模型:
| 模型 | 模型下载链接 |
MS-SSIM (%) |
模型存储大小(M) |
介绍 |
| UVDoc | 推理模型/训练模型 |
54.40 |
30.3 M |
高精度文本图像矫正模型 |
模型的精度指标测量自 DocUNet benchmark。
文档图像方向分类模块模型:
| 模型 | 模型下载链接 |
Top-1 Acc(%) |
GPU推理耗时(ms) |
CPU推理耗时 (ms) |
模型存储大小(M) |
介绍 |
| PP-LCNet_x1_0_doc_ori | 推理模型/训练模型 |
99.06 |
3.84845 |
9.23735 |
7 |
基于PP-LCNet_x1_0的文档图像分类模型,含有四个类别,即0度,90度,180度,270度 |
注:以上精度指标的评估集是自建的数据集,覆盖证件和文档等多个场景,包含 1000 张图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为 8,精度类型为 FP32。
## 2. 快速开始
PaddleX 所提供的模型产线均可以快速体验效果,你可以在本地使用命令行或 Python 体验通用通用版面解析v2产线的效果。
在本地使用通用版面解析v2产线前,请确保您已经按照[PaddleX本地安装教程](../../../installation/installation.md)完成了PaddleX的wheel包安装。
### 2.1 命令行方式体验
一行命令即可快速体验版面解析产线效果,使用 [测试文件](https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/layout_parsing_v2_demo.png),并将 `--input` 替换为本地路径,进行预测
```
paddlex --pipeline layout_parsing_v2 \
--input layout_parsing_v2_demo.png \
--use_doc_orientation_classify False \
--use_doc_unwarping False \
--use_textline_orientation False \
--save_path ./output \
--device gpu:0
```
相关的参数说明可以参考[2.2.2 Python脚本方式集成](#222-python脚本方式集成)中的参数说明。
运行后,会将结果打印到终端上,结果如下:
👉点击展开
运行结果参数说明可以参考[2.2.2 Python脚本方式集成](#222-python脚本方式集成)中的结果解释。
注:由于产线的默认模型较大,推理速度可能较慢,您可以参考第一节的模型列表,替换推理速度更快的模型。
### 2.2 Python脚本方式集成
几行代码即可完成产线的快速推理,以通用版面解析v2产线为例:
```python
from paddlex import create_pipeline
pipeline = create_pipeline(pipeline="layout_parsing_v2")
output = pipeline.predict(
input="./layout_parsing_v2_demo.png",
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
for res in output:
res.print() ## 打印预测的结构化输出
res.save_to_img(save_path="./output/") ## 保存当前图像的所有子模块预测的可视化图像结果
res.save_to_json(save_path="./output/") ## 保存当前图像的结构化json结果
res.save_to_html(save_path="./output/") ## 保存当前图像的子表格html格式的结果
res.save_to_markdown(save_path="./output/") ## 保存当前图像的markdown格式的结果
res.save_to_pdf_order(save_path="./output/") ## 保存当前图像的阅读顺序
```
在上述 Python 脚本中,执行了如下几个步骤:
(1)实例化 `create_pipeline` 实例化产线对象:具体参数说明如下:
| 参数 |
参数说明 |
参数类型 |
可选项 |
默认值 |
input |
待预测数据,支持多种输入类型,必填 |
Python Var|str|list |
- Python Var:如
numpy.ndarray 表示的图像数据
- str:如图像文件或者PDF文件的本地路径:
/root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)
- List:列表元素需为上述类型数据,如
[numpy.ndarray, numpy.ndarray],[\"/root/data/img1.jpg\", \"/root/data/img2.jpg\"],[\"/root/data1\", \"/root/data2\"]
|
None |
device |
产线推理设备 |
str|None |
- CPU:如
cpu 表示使用 CPU 进行推理;
- GPU:如
gpu:0 表示使用第 1 块 GPU 进行推理;
- NPU:如
npu:0 表示使用第 1 块 NPU 进行推理;
- XPU:如
xpu:0 表示使用第 1 块 XPU 进行推理;
- MLU:如
mlu:0 表示使用第 1 块 MLU 进行推理;
- DCU:如
dcu:0 表示使用第 1 块 DCU 进行推理;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备;
|
None |
use_doc_orientation_classify |
是否使用文档方向分类模块 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
use_doc_unwarping |
是否使用文档扭曲矫正模块 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
use_textline_orientation |
是否使用文本行方向分类模块 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
use_general_ocr |
是否使用 OCR 子产线 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
use_seal_recognition |
是否使用印章识别子产线 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
use_table_recognition |
是否使用表格识别子产线 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
use_formula_recognition |
是否使用公式识别子产线 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
layout_threshold |
版面模型得分阈值 |
float|dict|None |
- float:
0-1 之间的任意浮点数;
- dict:
{0:0.1} key为类别ID,value为该类别的阈值;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 0.5;
|
None |
layout_nms |
版面区域检测模型是否使用NMS后处理 |
bool|None |
- bool:
True 或者 False;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为True;
|
None |
layout_unclip_ratio |
版面区域检测模型检测框的扩张系数 |
float|Tuple[float,float]|None |
- float:任意大于
0 浮点数;
- Tuple[float,float]:在横纵两个方向各自的扩张系数;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 1.0;
|
None |
layout_merge_bboxes_mode |
版面区域检测的重叠框过滤方式 |
str|None |
- str:
large,small, union,分别表示重叠框过滤时选择保留大框,小框还是同时保留
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 large;
|
None |
text_det_limit_side_len |
文本检测的图像边长限制 |
int|None |
- int:大于
0 的任意整数;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 960;
|
None |
text_det_limit_type |
文本检测的图像边长限制类型 |
str|None |
- str:支持
min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 max;
|
None |
text_det_thresh |
检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 0.3 |
None |
text_det_box_thresh |
检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 0.6 |
None |
text_det_unclip_ratio |
文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 2.0 |
None |
text_rec_score_thresh |
文本识别阈值,得分大于该阈值的文本结果会被保留 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 0.0。即不设阈值 |
None |
seal_det_limit_side_len |
印章检测的图像边长限制 |
int|None |
- int:大于
0 的任意整数;
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 960;
|
None |
seal_det_limit_type |
印章检测的图像边长限制类型 |
str|None |
- str:支持
min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len
- None:如果设置为
None, 将默认使用产线初始化的该参数值,初始化为 max;
|
None |
seal_det_thresh |
检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是印章像素点 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 0.3 |
None |
seal_det_box_thresh |
检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是印章区域 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 0.6 |
None |
seal_det_unclip_ratio |
印章检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 2.0 |
None |
seal_rec_score_thresh |
印章识别阈值,得分大于该阈值的文本结果会被保留 |
float|None |
- float:大于
0 的任意浮点数
- None:如果设置为
None, 将默认使用产线初始化的该参数值 0.0。即不设阈值 |
None |
(3)对预测结果进行处理:每个样本的预测结果均为对应的Result对象,且支持打印、保存为图片、保存为`json`文件的操作: