comments: true

印章文本识别产线使用教程

1. 印章文本识别产线介绍

印章文本识别是一种自动从文档或图像中提取和识别印章内容的技术，印章文本的识别是文档处理的一部分，在很多场景都有用途，例如合同比对，出入库审核以及发票报销审核等场景。

印章文本识别产线用于识别印章的文本内容，提取印章图像中的文字信息以文本形式输出，本产线集成了业界知名的 PP-OCRv4 的端到端 OCR 串联系统，支持弯曲印章文本的检测和识别。同时，本产线集成了可选的版面区域定位模块，可以在整个文档中准确定位印章所在的版面位置。此外也增加可选的文档图像的方向矫正和扭曲矫正功能。基于本产线，可实现 CPU 上毫秒级的文本内容精准预测。本产线同时提供了灵活的服务化部署方式，支持在多种硬件上使用多种编程语言调用。不仅如此，本产线也提供了二次开发的能力，您可以基于本产线在您自己的数据集上训练调优，训练后的模型也可以无缝集成。

印章文本识别产线中包含印章印章文本检测模块和文本识别模块，以及可选的版面检测模块、文档图像方向分类模块、文本图像矫正模块。

如您更考虑模型精度，请选择精度较高的模型，如您更考虑模型推理速度，请选择推理速度较快的模型，如您更考虑模型存储大小，请选择存储大小较小的模型。

版面区域检测模块（可选）：

版面检测模型，包含23个常见的类别：文档标题、段落标题、文本、页码、摘要、目录、参考文献、脚注、页眉、页脚、算法、公式、公式编号、图像、图表标题、表格、表格标题、印章、图表标题、图表、页眉图像、页脚图像、侧栏文本

模型	模型下载链接	mAP(0.5)（%）	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M）	介绍
PP-DocLayout-L	推理模型/训练模型	90.4	34.5252	1454.27	123.76 M	基于RT-DETR-L在包含中英文论文、杂志、合同、书本、试卷和研报等场景的自建数据集训练的高精度版面区域定位模型
PP-DocLayout-M	推理模型/训练模型	75.2	15.9	160.1	22.578	基于PicoDet-L在包含中英文论文、杂志、合同、书本、试卷和研报等场景的自建数据集训练的精度效率平衡的版面区域定位模型
PP-DocLayout-S	推理模型/训练模型	70.9	13.8	46.7	4.834	基于PicoDet-S在中英文论文、杂志、合同、书本、试卷和研报等场景上自建数据集训练的高效率版面区域定位模型

注：以上精度指标的评估集是 PaddleOCR 自建的版面区域检测数据集，包含中英文论文、杂志、合同、书本、试卷和研报等常见的 500 张文档类型图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为 8，精度类型为 FP32。

❗ 以上列出的是版面检测模块重点支持的3个核心模型，该模块总共支持11个全量模型，包含多个预定义了不同类别的模型，其中包含印章类别的模型有9个，除上述3个核心模型外，其余模型列表如下：

👉模型列表详情

* 3类版面检测模型，包含表格、图像、印章 注：以上精度指标的评估集是 PaddleOCR 自建的版面区域检测数据集，包含中英文论文、杂志和研报等常见的 1154 张文档类型图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为 8，精度类型为 FP32。 * 17类区域检测模型，包含17个版面常见类别，分别是：段落标题、图片、文本、数字、摘要、内容、图表标题、公式、表格、表格标题、参考文献、文档标题、脚注、页眉、算法、页脚、印章

模型	模型下载链接	mAP(0.5)（%）	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M）	介绍
PicoDet-S_layout_3cls	推理模型/训练模型	88.2	13.5	45.8	4.8	基于PicoDet-S轻量模型在中英文论文、杂志和研报等场景上自建数据集训练的高效率版面区域定位模型
PicoDet-L_layout_3cls	推理模型/训练模型	89.0	15.7	159.8	22.6	基于PicoDet-L在中英文论文、杂志和研报等场景上自建数据集训练的效率精度均衡版面区域定位模型
RT-DETR-H_layout_3cls	推理模型/训练模型	95.8	114.6	3832.6	470.1	基于RT-DETR-H在中英文论文、杂志和研报等场景上自建数据集训练的高精度版面区域定位模型

模型	模型下载链接	mAP(0.5)（%）	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M）	介绍
PicoDet-S_layout_17cls	推理模型/训练模型	87.4	13.6	46.2	4.8	基于PicoDet-S轻量模型在中英文论文、杂志和研报等场景上自建数据集训练的高效率版面区域定位模型
PicoDet-L_layout_17cls	推理模型/训练模型	89.0	17.2	160.2	22.6	基于PicoDet-L在中英文论文、杂志和研报等场景上自建数据集训练的效率精度均衡版面区域定位模型
RT-DETR-H_layout_17cls	推理模型/训练模型	98.3	115.1	3827.2	470.2	基于RT-DETR-H在中英文论文、杂志和研报等场景上自建数据集训练的高精度版面区域定位模型

注：以上精度指标的评估集是 PaddleOCR 自建的版面区域检测数据集，包含中英文论文、杂志和研报等常见的 892 张文档类型图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为 8，精度类型为 FP32。

文档图像方向分类模块（可选）：

模型	模型下载链接	Top-1 Acc（%）	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M)	介绍
PP-LCNet_x1_0_doc_ori	推理模型/训练模型	99.06	3.84845	9.23735	7	基于PP-LCNet_x1_0的文档图像分类模型，含有四个类别，即0度，90度，180度，270度

注：以上精度指标的评估集是自建的数据集，覆盖证件和文档等多个场景，包含 1000 张图片。GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为 8，精度类型为 FP32。

文本图像矫正模块（可选）：

模型	模型下载链接	CER	模型存储大小（M)	介绍
UVDoc	推理模型/训练模型	0.179	30.3 M	高精度文本图像矫正模型

注：模型的精度指标测量自 DocUNet benchmark。

文本检测模块：

模型	模型下载链接	检测Hmean（%）	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M)	介绍
PP-OCRv4_server_seal_det	推理模型/训练模型	98.40	84.341	2425.06	109	PP-OCRv4的服务端印章文本检测模型，精度更高，适合在较好的服务器上部署
PP-OCRv4_mobile_seal_det	推理模型/训练模型	96.36	10.5878	131.813	4.6	PP-OCRv4的移动端印章文本检测模型，效率更高，适合在端侧部署

注：以上精度指标的评估集是自建的数据集，包含500张圆形印章图像。GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为 8，精度类型为 FP32。

文本识别模块：

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M）	介绍
PP-OCRv4_server_rec_doc	推理模型/训练模型	81.53			74.7 M	PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上，在更多中文文档数据和PP-OCR训练数据的混合数据训练而成，增加了部分繁体字、日文、特殊字符的识别能力，可支持识别的字符为1.5万+，除文档相关的文字识别能力提升外，也同时提升了通用文字的识别能力
PP-OCRv4_mobile_rec	推理模型/训练模型	78.74	7.95018	46.7868	10.6 M	PP-OCRv4的轻量级识别模型，推理效率高，可以部署在包含端侧设备的多种硬件设备中
PP-OCRv4_server_rec	推理模型/训练模型	80.61	7.19439	140.179	71.2 M	PP-OCRv4的服务器端模型，推理精度高，可以部署在多种不同的服务器上
en_PP-OCRv4_mobile_rec	推理模型/训练模型	70.39			6.8 M	基于PP-OCRv4识别模型训练得到的超轻量英文识别模型，支持英文、数字识别

注：以上精度指标的评估集是 PaddleOCR 自建的中文数据集，覆盖街景、网图、文档、手写多个场景，其中文本识别包含 1.1w 张图片。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为8，精度类型为 FP32。

❗ 以上列出的是文本识别模块重点支持的4个核心模型，该模块总共支持18个全量模型，包含多个多语言文本识别模型，完整的模型列表如下：

👉模型列表详情

* 中文识别模型

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms）	CPU推理耗时 (ms)	模型存储大小（M）	介绍
PP-OCRv4_server_rec_doc	推理模型/训练模型	81.53			74.7 M	PP-OCRv4_server_rec_doc是在PP-OCRv4_server_rec的基础上，在更多中文文档数据和PP-OCR训练数据的混合数据训练而成，增加了部分繁体字、日文、特殊字符的识别能力，可支持识别的字符为1.5万+，除文档相关的文字识别能力提升外，也同时提升了通用文字的识别能力
PP-OCRv4_mobile_rec	推理模型/训练模型	78.74	7.95018	46.7868	10.6 M	PP-OCRv4的轻量级识别模型，推理效率高，可以部署在包含端侧设备的多种硬件设备中
PP-OCRv4_server_rec	推理模型/训练模型	80.61	7.19439	140.179	71.2 M	PP-OCRv4的服务器端模型，推理精度高，可以部署在多种不同的服务器上
PP-OCRv3_mobile_rec	推理模型/训练模型	72.96			9.2 M	PP-OCRv3的轻量级识别模型，推理效率高，可以部署在包含端侧设备的多种硬件设备中

注：以上精度指标的评估集是 PaddleOCR 自建的中文数据集，覆盖街景、网图、文档、手写多个场景，其中文本识别包含 8367 张图片。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为8，精度类型为 FP32。

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms）	CPU推理耗时	模型存储大小（M）	介绍
ch_SVTRv2_rec	推理模型/训练模型	68.81	8.36801	165.706	73.9 M	SVTRv2 是一种由复旦大学视觉与学习实验室（FVL）的OpenOCR团队研发的服务端文本识别模型，其在PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务中荣获一等奖，A榜端到端识别精度相比PP-OCRv4提升6%。

注：以上精度指标的评估集是 PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务A榜。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为8，精度类型为 FP32。

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms）	CPU推理耗时	模型存储大小（M）	介绍
ch_RepSVTR_rec	推理模型/训练模型	65.07	10.5047	51.5647	22.1 M	RepSVTR 文本识别模型是一种基于SVTRv2 的移动端文本识别模型，其在PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务中荣获一等奖，B榜端到端识别精度相比PP-OCRv4提升2.5%，推理速度持平。

注：以上精度指标的评估集是 PaddleOCR算法模型挑战赛 - 赛题一：OCR端到端识别任务B榜。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为8，精度类型为 FP32。

* 英文识别模型

模型	模型下载链接	识别 Avg Accuracy(%)	GPU推理耗时（ms）	CPU推理耗时	模型存储大小（M）	介绍
en_PP-OCRv4_mobile_rec	推理模型/训练模型	70.39			6.8 M	基于PP-OCRv4识别模型训练得到的超轻量英文识别模型，支持英文、数字识别
en_PP-OCRv3_mobile_rec	推理模型/训练模型	70.69			7.8 M	基于PP-OCRv3识别模型训练得到的超轻量英文识别模型，支持英文、数字识别

* 多语言识别模型

模型	模型下载链接	识别 Avg Accuracy(%)	模型存储大小（M）	介绍
korean_PP-OCRv3_mobile_rec	推理模型/训练模型	60.21	8.6 M	基于PP-OCRv3识别模型训练得到的超轻量韩文识别模型，支持韩文、数字识别
japan_PP-OCRv3_mobile_rec	推理模型/训练模型	45.69	8.8 M	基于PP-OCRv3识别模型训练得到的超轻量日文识别模型，支持日文、数字识别
chinese_cht_PP-OCRv3_mobile_rec	推理模型/训练模型	82.06	9.7 M	基于PP-OCRv3识别模型训练得到的超轻量繁体中文识别模型，支持繁体中文、数字识别
te_PP-OCRv3_mobile_rec	推理模型/训练模型	95.88	7.8 M	基于PP-OCRv3识别模型训练得到的超轻量泰卢固文识别模型，支持泰卢固文、数字识别
ka_PP-OCRv3_mobile_rec	推理模型/训练模型	96.96	8.0 M	基于PP-OCRv3识别模型训练得到的超轻量卡纳达文识别模型，支持卡纳达文、数字识别
ta_PP-OCRv3_mobile_rec	推理模型/训练模型	76.83	8.0 M	基于PP-OCRv3识别模型训练得到的超轻量泰米尔文识别模型，支持泰米尔文、数字识别
latin_PP-OCRv3_mobile_rec	推理模型/训练模型	76.93	7.8 M	基于PP-OCRv3识别模型训练得到的超轻量拉丁文识别模型，支持拉丁文、数字识别
arabic_PP-OCRv3_mobile_rec	推理模型/训练模型	73.55	7.8 M	基于PP-OCRv3识别模型训练得到的超轻量阿拉伯字母识别模型，支持阿拉伯字母、数字识别
cyrillic_PP-OCRv3_mobile_rec	推理模型/训练模型	94.28	7.9 M	基于PP-OCRv3识别模型训练得到的超轻量斯拉夫字母识别模型，支持斯拉夫字母、数字识别
devanagari_PP-OCRv3_mobile_rec	推理模型/训练模型	96.44	7.9 M	基于PP-OCRv3识别模型训练得到的超轻量梵文字母识别模型，支持梵文字母、数字识别

注：以上精度指标的评估集是 PaddleX 自建的多语种数据集。所有模型 GPU 推理耗时基于 NVIDIA Tesla T4 机器，精度类型为 FP32， CPU 推理速度基于 Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz，线程数为8，精度类型为 FP32。

2. 快速开始

PaddleX 所提供的预训练的模型产线均可以快速体验效果，你可以在本地使用命令行或 Python 体验印章文本识别产线的效果。

在本地使用印章文本识别产线前，请确保您已经按照PaddleX本地安装教程完成了PaddleX的wheel包安装。

2.1 命令行方式体验

一行命令即可快速体验印章文本识别产线效果，使用测试文件，并将 --input 替换为本地路径，进行预测

paddlex --pipeline seal_recognition \
    --input seal_text_det.png \
    --use_doc_orientation_classify False \
    --use_doc_unwarping False \
    --device gpu:0 \
    --save_path ./output

相关的参数说明可以参考2.1.2 Python脚本方式集成中的参数说明。

运行后，会将结果打印到终端上，结果如下：

👉点击展开

```bash {'res': {'input_path': 'seal_text_det.png', 'model_settings': {'use_doc_preprocessor': False, 'use_layout_detection': True}, 'layout_det_res': {'input_path': None, 'page_index': None, 'boxes': [{'cls_id': 16, 'label': 'seal', 'score': 0.975529670715332, 'coordinate': [6.191284, 0.16680908, 634.39325, 628.85345]}]}, 'seal_res_list': [{'input_path': None, 'page_index': None, 'model_settings': {'use_doc_preprocessor': False, 'use_textline_orientation': False}, 'dt_polys': [array([[320, 38], [479, 92], [483, 94], [486, 97], [579, 226], [582, 230], [582, 235], [584, 383], [584, 388], [582, 392], [578, 396], [573, 398], [566, 398], [502, 380], [497, 377], [494, 374], [491, 369], [491, 366], [488, 259], [424, 172], [318, 136], [251, 154], [200, 174], [137, 260], [133, 366], [132, 370], [130, 375], [126, 378], [123, 380], [ 60, 398], [ 55, 398], [ 49, 397], [ 45, 394], [ 43, 390], [ 41, 383], [ 43, 236], [ 44, 230], [ 45, 227], [141, 96], [144, 93], [148, 90], [311, 38], [315, 38]]), array([[461, 347], [465, 350], [468, 354], [470, 360], [470, 425], [469, 429], [467, 433], [462, 437], [456, 439], [169, 439], [165, 439], [160, 436], [157, 432], [155, 426], [154, 360], [155, 356], [158, 352], [161, 348], [168, 346], [456, 346]]), array([[439, 445], [441, 447], [443, 451], [444, 453], [444, 497], [443, 502], [440, 504], [437, 506], [434, 507], [189, 505], [184, 504], [182, 502], [180, 498], [179, 496], [181, 453], [182, 449], [184, 446], [188, 444], [434, 444]]), array([[158, 468], [199, 502], [242, 522], [299, 534], [339, 532], [373, 526], [417, 508], [459, 475], [462, 474], [467, 474], [472, 476], [502, 507], [503, 510], [504, 515], [503, 518], [501, 521], [452, 559], [450, 560], [391, 584], [390, 584], [372, 590], [370, 590], [305, 596], [302, 596], [224, 581], [221, 580], [164, 553], [162, 551], [114, 509], [112, 507], [111, 503], [112, 498], [114, 496], [146, 468], [149, 466], [154, 466]])], 'text_det_params': {'limit_side_len': 736, 'limit_type': 'min', 'thresh': 0.2, 'box_thresh': 0.6, 'unclip_ratio': 0.5}, 'text_type': 'seal', 'textline_orientation_angles': [-1, -1, -1, -1], 'text_rec_score_thresh': 0, 'rec_texts': ['天津君和缘商贸有限公司', '发票专用章', '吗繁物', '5263647368706'], 'rec_scores': [0.9934046268463135, 0.9999403953552246, 0.998250424861908, 0.9913849234580994], 'rec_polys': [array([[320, 38], [479, 92], [483, 94], [486, 97], [579, 226], [582, 230], [582, 235], [584, 383], [584, 388], [582, 392], [578, 396], [573, 398], [566, 398], [502, 380], [497, 377], [494, 374], [491, 369], [491, 366], [488, 259], [424, 172], [318, 136], [251, 154], [200, 174], [137, 260], [133, 366], [132, 370], [130, 375], [126, 378], [123, 380], [ 60, 398], [ 55, 398], [ 49, 397], [ 45, 394], [ 43, 390], [ 41, 383], [ 43, 236], [ 44, 230], [ 45, 227], [141, 96], [144, 93], [148, 90], [311, 38], [315, 38]]), array([[461, 347], [465, 350], [468, 354], [470, 360], [470, 425], [469, 429], [467, 433], [462, 437], [456, 439], [169, 439], [165, 439], [160, 436], [157, 432], [155, 426], [154, 360], [155, 356], [158, 352], [161, 348], [168, 346], [456, 346]]), array([[439, 445], [441, 447], [443, 451], [444, 453], [444, 497], [443, 502], [440, 504], [437, 506], [434, 507], [189, 505], [184, 504], [182, 502], [180, 498], [179, 496], [181, 453], [182, 449], [184, 446], [188, 444], [434, 444]]), array([[158, 468], [199, 502], [242, 522], [299, 534], [339, 532], [373, 526], [417, 508], [459, 475], [462, 474], [467, 474], [472, 476], [502, 507], [503, 510], [504, 515], [503, 518], [501, 521], [452, 559], [450, 560], [391, 584], [390, 584], [372, 590], [370, 590], [305, 596], [302, 596], [224, 581], [221, 580], [164, 553], [162, 551], [114, 509], [112, 507], [111, 503], [112, 498], [114, 496], [146, 468], [149, 466], [154, 466]])], 'rec_boxes': array([], dtype=float64)}]}} ```

运行结果参数说明可以参考2.1.2 Python脚本方式集成中的结果解释。

可视化结果保存在save_path下，其中印章OCR的可视化结果如下：

2.1.2 Python脚本方式集成

上述命令行是为了快速体验查看效果，一般来说，在项目中，往往需要通过代码集成，您可以通过几行代码即可完成产线的快速推理，推理代码如下：

from paddlex import create_pipeline

pipeline = create_pipeline(pipeline="seal_recognition")

output = pipeline.predict(
"seal_text_det.png",
use_doc_orientation_classify=False,
use_doc_unwarping=False,
)
for res in output:
res.print() ## 打印预测的结构化输出
res.save_to_img("./output/") ## 保存可视化结果
res.save_to_json("./output/") ## 保存可视化结果

在上述 Python 脚本中，执行了如下几个步骤：

（1）通过 create_pipeline() 实例化 OCR 产线对象，具体参数说明如下：

参数	参数说明	参数类型	默认值
`pipeline`	产线名称或是产线配置文件路径。如为产线名称，则必须为 PaddleX 所支持的产线。	`str`	`None`
`device`	产线推理设备。支持指定GPU具体卡号，如“gpu:0”，其他硬件具体卡号，如“npu:0”，CPU如“cpu”。	`str`	`gpu:0`
`use_hpip`	是否启用高性能推理，仅当该产线支持高性能推理时可用。	`bool`	`False`

（2）调用印章文本识别产线对象的 predict() 方法进行推理预测。该方法将返回一个 generator。以下是 predict() 方法的参数及其说明：

（3）对预测结果进行处理，每个样本的预测结果均为dict类型，且支持打印、保存为图片、保存为json文件的操作:

参数	参数说明	参数类型	可选项	默认值
`input`	待预测数据，支持多种输入类型，必填	`Python Var\|str\|list`	Python Var：如 `numpy.ndarray` 表示的图像数据 str：如图像文件或者PDF文件的本地路径：`/root/data/img.jpg`；如URL链接，如图像文件或PDF文件的网络URL：示例；如本地目录，该目录下需包含待预测图像，如本地路径：`/root/data/`(当前不支持目录中包含PDF文件的预测，PDF文件需要指定到具体文件路径) List：列表元素需为上述类型数据，如`[numpy.ndarray, numpy.ndarray]`，`[\"/root/data/img1.jpg\", \"/root/data/img2.jpg\"]`，`[\"/root/data1\", \"/root/data2\"]`	`None`
`device`	产线推理设备	`str\|None`	CPU：如 `cpu` 表示使用 CPU 进行推理； GPU：如 `gpu:0` 表示使用第 1 块 GPU 进行推理； NPU：如 `npu:0` 表示使用第 1 块 NPU 进行推理； XPU：如 `xpu:0` 表示使用第 1 块 XPU 进行推理； MLU：如 `mlu:0` 表示使用第 1 块 MLU 进行推理； DCU：如 `dcu:0` 表示使用第 1 块 DCU 进行推理； None：如果设置为 `None`, 将默认使用产线初始化的该参数值，初始化时，会优先使用本地的 GPU 0号设备，如果没有，则使用 CPU 设备；	`None`
`use_doc_orientation_classify`	是否使用文档方向分类模块	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`use_doc_unwarping`	是否使用文档扭曲矫正模块	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`use_layout_detection`	是否使用版面检测模块	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`layout_threshold`	版面检测置信度阈值，得分大于该阈值才会被输出	`float\|dict\|None`	float：大于 `0` 的任意浮点数 dict：key是int类别id， value是大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.5`	`None`
`layout_nms`	是否使用版面检测后处理NMS	`bool\|None`	bool：`True` 或者 `False`； None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`True`；	`None`
`layout_unclip_ratio`	检测框的边长缩放倍数；如果不指定，将默认使用PaddleX官方模型配置	`float\|list\|None`	float, 大于0的浮点数，如 1.1 , 表示将模型输出的检测框中心不变，宽和高都扩张1.1倍列表, 如 [1.2, 1.5] , 表示将模型输出的检测框中心不变，宽度扩张1.2倍，高度扩张1.5倍 None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为1.0
`layout_merge_bboxes_mode`	模型输出的检测框的合并处理模式；如果不指定，将默认使用PaddleX官方模型配置	`string\|None`	large, 设置为large时，表示在模型输出的检测框中，对于互相重叠包含的检测框，只保留外部最大的框，删除重叠的内部框。 small, 设置为small，表示在模型输出的检测框中，对于互相重叠包含的检测框，只保留内部被包含的小框，删除重叠的外部框。 union, 不进行框的过滤处理，内外框都保留 None：如果设置为`None`, 将默认使用产线初始化的该参数值，初始化为`large`	None
`seal_det_limit_side_len`	印章文本检测的图像边长限制	`int\|None`	int：大于 `0` 的任意整数； None：如果设置为 `None`, 将默认使用产线初始化的该参数值，初始化为 `736`；	`None`
`seal_det_limit_type`	印章文本检测的图像边长限制类型	`str\|None`	str：支持 `min` 和 `max`，`min` 表示保证图像最短边不小于 `det_limit_side_len`，`max` 表示保证图像最长边不大于 `limit_side_len` None：如果设置为 `None`, 将默认使用产线初始化的该参数值，初始化为 `min`；	`None`
`seal_det_thresh`	检测像素阈值，输出的概率图中，得分大于该阈值的像素点才会被认为是文字像素点	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.2`	`None`
`seal_det_box_thresh`	检测框阈值，检测结果边框内，所有像素点的平均得分大于该阈值时，该结果会被认为是文字区域	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.6`	`None`
`seal_det_unclip_ratio`	文本检测扩张系数，使用该方法对文字区域进行扩张，该值越大，扩张的面积越大	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.5`	`None`
`seal_rec_score_thresh`	文本识别阈值，得分大于该阈值的文本结果会被保留	`float\|None`	float：大于 `0` 的任意浮点数 None：如果设置为 `None`, 将默认使用产线初始化的该参数值 `0.0`。即不设阈值	`None`

方法	方法说明	参数	参数类型	参数说明	默认值
`print()`	打印结果到终端	`format_json`	`bool`	是否对输出内容进行使用 `JSON` 缩进格式化	`True`
		`indent`	`int`	指定缩进级别，以美化输出的 `JSON` 数据，使其更具可读性，仅当 `format_json` 为 `True` 时有效	4
		`ensure_ascii`	`bool`	控制是否将非 `ASCII` 字符转义为 `Unicode`。设置为 `True` 时，所有非 `ASCII` 字符将被转义；`False` 则保留原始字符，仅当`format_json`为`True`时有效	`False`
`save_to_json()`	将结果保存为json格式的文件	`save_path`	`str`	保存的文件路径，当为目录时，保存文件命名与输入文件类型命名一致	无
		`indent`	`int`	指定缩进级别，以美化输出的 `JSON` 数据，使其更具可读性，仅当 `format_json` 为 `True` 时有效	4
		`ensure_ascii`	`bool`	控制是否将非 `ASCII` 字符转义为 `Unicode`。设置为 `True` 时，所有非 `ASCII` 字符将被转义；`False` 则保留原始字符，仅当`format_json`为`True`时有效	`False`
`save_to_img()`	将结果保存为图像格式的文件	`save_path`	`str`	保存的文件路径，支持目录或文件路径	无

调用print() 方法会将结果打印到终端，打印到终端的内容解释如下：
- input_path: (str) 待预测图像的输入路径
- page_index: (Union[int, None]) 如果输入是PDF文件，则表示当前是PDF的第几页，否则为 None
- model_settings: (Dict[str, bool]) 配置产线所需的模型参数
  - use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线
  - use_layout_detection: (bool) 控制是否启用版面检测子模块
- layout_det_res: (Dict[str, Union[List[numpy.ndarray], List[float]]]) 版面检测子模块的输出结果。仅当use_layout_detection=True时存在
  - input_path: (Union[str, None]) 版面检测区域模块接受的图像路径，当输入为numpy.ndarray时，保存为None
  - page_index: (Union[int, None]) 如果输入是PDF文件，则表示当前是PDF的第几页，否则为 None
  - boxes: (List[Dict]) 版面印章区域的检测框列表，每个列表中的元素，包含以下字段
    - cls_id: (int) 检测框的印章类别id
    - score: (float) 检测框的置信度
    - coordinate: (List[float]) 检测框的四个顶点坐标，顺序为x1,y1,x2,y2表示左上角的x坐标，左上角的y坐标，右下角x坐标，右下角的y坐标
- seal_res_list: List[Dict] 印章文本识别的结果列表，每个元素包含以下字段
  - input_path: (Union[str, None]) 印章文本识别产线接受的图像路径，当输入为numpy.ndarray时，保存为None
  - page_index: (Union[int, None]) 如果输入是PDF文件，则表示当前是PDF的第几页，否则为 None
  - model_settings: (Dict[str, bool]) 印章文本识别产线的模型配置参数
    - use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线
    - use_textline_orientation: (bool) 控制是否启用文本行方向分类子模块
- doc_preprocessor_res: (Dict[str, Union[str, Dict[str, bool], int]]) 文档预处理子产线的输出结果。仅当use_doc_preprocessor=True时存在
  - input_path: (Union[str, None]) 图像预处理子产线接受的图像路径，当输入为numpy.ndarray时，保存为None
  - model_settings: (Dict) 预处理子产线的模型配置参数
    - use_doc_orientation_classify: (bool) 控制是否启用文档方向分类
    - use_doc_unwarping: (bool) 控制是否启用文档扭曲矫正
  - angle: (int) 文档方向分类的预测结果。启用时取值为[0,1,2,3]，分别对应[0°,90°,180°,270°]；未启用时为-1
- dt_polys: (List[numpy.ndarray]) 印章文本检测的多边形框列表。每个检测框由多个顶点坐标构成的numpy数组表示，数组shape为(n, 2)
- dt_scores: (List[float]) 文本检测框的置信度列表
- text_det_params: (Dict[str, Dict[str, int, float]]) 文本检测模块的配置参数
  - limit_side_len: (int) 图像预处理时的边长限制值
  - limit_type: (str) 边长限制的处理方式
  - thresh: (float) 文本像素分类的置信度阈值
  - box_thresh: (float) 文本检测框的置信度阈值
  - unclip_ratio: (float) 文本检测框的膨胀系数
  - text_type: (str) 印章文本检测的类型，当前固定为"seal"
- text_rec_score_thresh: (float) 文本识别结果的过滤阈值
- rec_texts: (List[str]) 文本识别结果列表，仅包含置信度超过text_rec_score_thresh的文本
- rec_scores: (List[float]) 文本识别的置信度列表，已按text_rec_score_thresh过滤
- rec_polys: (List[numpy.ndarray]) 经过置信度过滤的文本检测框列表，格式同dt_polys
- rec_boxes: (numpy.ndarray) 检测框的矩形边界框数组，印章识别产线为空数组
调用save_to_json() 方法会将上述内容保存到指定的save_path中，如果指定为目录，则保存的路径为save_path/{your_img_basename}_res.json，如果指定为文件，则直接保存到该文件中。由于json文件不支持保存numpy数组，因此会将其中的numpy.array类型转换为列表形式。
调用save_to_img() 方法会将可视化结果保存到指定的save_path中，如果指定为目录，则保存的路径为save_path/{your_img_basename}_seal_res_region1.{your_img_extension}，如果指定为文件，则直接保存到该文件中。(产线通常包含较多结果图片，不建议直接指定为具体的文件路径，否则多张图会被覆盖，仅保留最后一张图)
此外，也支持通过属性获取带结果的可视化图像和预测结果，具体如下：

属性	属性说明
`json`	获取预测的 `json` 格式的结果
`img`	获取格式为 `dict` 的可视化图像

json 属性获取的预测结果为dict类型的数据，相关内容与调用 save_to_json() 方法保存的内容一致。
img 属性返回的预测结果是一个字典类型的数据。其中，键分别为 layout_det_res 、 seal_res_region1和 preprocessed_img，对应的值是三个 Image.Image 对象：一个用于显示版面检测可视化，一个用于显示印章文本识别结果的可视化图像，另一个用于展示图像预处理的可视化图像。如果没有使用图像预处理子模块，则字典中不包含preprocessed_img，如果没有使用版面区域检测模块，则字典中不包含layout_det_res。

此外，您可以获取印章文本识别产线配置文件，并加载配置文件进行预测。可执行如下命令将结果保存在 my_path 中：

paddlex --get_pipeline_config seal_recognition --save_path ./my_path

若您获取了配置文件，即可对印章文本识别产线各项配置进行自定义，只需要修改 create_pipeline 方法中的 pipeline 参数值为产线配置文件路径即可。示例如下：

from paddlex import create_pipeline
pipeline = create_pipeline(pipeline="./my_path/seal_recognition.yaml")
output = pipeline.predict("seal_text_det.png")
for res in output:
    res.print() ## 打印预测的结构化输出
    res.save_to_img("./output/") ## 保存可视化结果
    res.save_to_json("./output/") ## 保存预测结果的json文件

注：配置文件中的参数为产线初始化参数，如果希望更改印章文本识别产线初始化参数，可以直接修改配置文件中的参数，并加载配置文件进行预测。同时，CLI 预测也支持传入配置文件，--pipeline 指定配置文件的路径即可。

3. 开发集成/部署

如果产线可以达到您对产线推理速度和精度的要求，您可以直接进行开发集成/部署。

若您需要将产线直接应用在您的Python项目中，可以参考 2.2.2 Python脚本方式中的示例代码。

此外，PaddleX 也提供了其他三种部署方式，详细说明如下：

🚀 高性能部署：在实际生产环境中，许多应用对部署策略的性能指标（尤其是响应速度）有着较严苛的标准，以确保系统的高效运行与用户体验的流畅性。为此，PaddleX 提供高性能推理插件，旨在对模型推理及前后处理进行深度性能优化，实现端到端流程的显著提速，详细的高性能部署流程请参考PaddleX高性能部署指南。

☁️ 服务化部署：服务化部署是实际生产环境中常见的一种部署形式。通过将推理功能封装为服务，客户端可以通过网络请求来访问这些服务，以获取推理结果。PaddleX 支持多种产线服务化部署方案，详细的产线服务化部署流程请参考PaddleX服务化部署指南。

以下是基础服务化部署的API参考与多语言服务调用示例：

API参考

对于服务提供的主要操作：

HTTP请求方法为POST。
请求体和响应体均为JSON数据（JSON对象）。
当请求处理成功时，响应状态码为200，响应体的属性如下：

名称	类型	含义
`logId`	`string`	请求的UUID。
`errorCode`	`integer`	错误码。固定为`0`。
`errorMsg`	`string`	错误说明。固定为`"Success"`。
`result`	`object`	操作结果。

当请求处理未成功时，响应体的属性如下：

名称	类型	含义
`logId`	`string`	请求的UUID。
`errorCode`	`integer`	错误码。与响应状态码相同。
`errorMsg`	`string`	错误说明。

服务提供的主要操作如下：

infer

获取印章文本识别结果。

POST /seal-recognition

请求体的属性如下：

名称	类型	含义	是否必填
`file`	`string`	服务器可访问的图像文件或PDF文件的URL，或上述类型文件内容的Base64编码结果。对于超过10页的PDF文件，只有前10页的内容会被使用。	是
`fileType`	`integer`	文件类型。`0`表示PDF文件，`1`表示图像文件。若请求体无此属性，则将根据URL推断文件类型。	否

请求处理成功时，响应体的result具有如下属性：

名称	类型	含义
`sealRecResults`	`object`	印章文本识别结果。数组长度为1（对于图像输入）或文档页数与10中的较小者（对于PDF输入）。对于PDF输入，数组中的每个元素依次表示PDF文件中每一页的处理结果。
`dataInfo`	`object`	输入数据信息。

sealRecResults中的每个元素为一个object，具有如下属性：

名称	类型	含义
`texts`	`array`	文本位置、内容和得分。
`inputImage`	`string`	输入图像。图像为JPEG格式，使用Base64编码。
`layoutImage`	`string`	版面区域检测结果图。图像为JPEG格式，使用Base64编码。
`ocrImage`	`string`	OCR结果图。图像为JPEG格式，使用Base64编码。

texts中的每个元素为一个object，具有如下属性：

名称	类型	含义
`poly`	`array`	文本位置。数组中元素依次为包围文本的多边形的顶点坐标。
`text`	`string`	文本内容。
`score`	`number`	文本识别得分。

多语言调用服务示例

Python

import base64
import requests

API_URL = "http://localhost:8080/seal-recognition"
file_path = "./demo.jpg"

with open(file_path, "rb") as file:

file_bytes = file.read()
file_data = base64.b64encode(file_bytes).decode(&quot;ascii&quot;)


payload = {"file": file_data, "fileType": 1}

response = requests.post(API_URL, json=payload)

assert response.status_code == 200
result = response.json()["result"]
for i, res in enumerate(result["sealRecResults"]):

print(&quot;Detected texts:&quot;)
print(res[&quot;texts&quot;])
layout_img_path = f&quot;layout_{i}.jpg&quot;
with open(layout_img_path, &quot;wb&quot;) as f:
    f.write(base64.b64decode(res[&quot;layoutImage&quot;]))
ocr_img_path = f&quot;ocr_{i}.jpg&quot;
with open(ocr_img_path, &quot;wb&quot;) as f:
    f.write(base64.b64decode(res[&quot;ocrImage&quot;]))
print(f&quot;Output images saved at {layout_img_path} and {ocr_img_path}&quot;)

📱 端侧部署：端侧部署是一种将计算和数据处理功能放在用户设备本身上的方式，设备可以直接处理数据，而不需要依赖远程的服务器。PaddleX 支持将模型部署在 Android 等端侧设备上，详细的端侧部署流程请参考PaddleX端侧部署指南。您可以根据需要选择合适的方式部署模型产线，进而进行后续的 AI 应用集成。

4. 二次开发

如果印章文本识别产线提供的默认模型权重在您的场景中，精度或速度不满意，您可以尝试利用您自己拥有的特定领域或应用场景的数据对现有模型进行进一步的微调，以提升印章文本识别产线的在您的场景中的识别效果。

4.1 模型微调

由于印章文本识别产线包含若干模块，模型产线的效果如果不及预期，可能来自于其中任何一个模块。您可以对识别效果差的图片进行分析，进而确定是哪个模块存在问题，并参考以下表格中对应的微调教程链接进行模型微调。

情形	微调模块	微调参考链接
印章位置检测不准或未检出	版面检测模块	链接
文本存在漏检	文本检测模块	链接
文本内容不准	文本识别模块	链接
整图旋转矫正不准	文档图像方向分类模块	链接
图像扭曲矫正不准	文本图像矫正模块	暂不支持微调

4.2 模型应用

当您使用私有数据集完成微调训练后，可获得本地模型权重文件。

若您需要使用微调后的模型权重，只需对产线配置文件做修改，将微调后模型权重的本地路径替换至产线配置文件中的对应位置即可：

......
    SubModules:
      TextDetection:
        module_name: seal_text_detection
        model_name: PP-OCRv4_server_seal_det
        model_dir: null # 修改此处为微调后模型权重的本地路径
        limit_side_len: 736
        limit_type: min
        thresh: 0.2
        box_thresh: 0.6
        unclip_ratio: 0.5
......

随后，参考2.2 本地体验中的命令行方式或Python脚本方式，加载修改后的产线配置文件即可。

5. 多硬件支持

PaddleX 支持英伟达 GPU、昆仑芯 XPU、昇腾 NPU和寒武纪 MLU 等多种主流硬件设备，仅需修改 --device 参数即可完成不同硬件之间的无缝切换。

例如，您使用昇腾 NPU 进行印章文本识别产线的推理，使用的 Python 命令为：

paddlex --pipeline seal_recognition \
    --input seal_text_det.png \
    --use_doc_orientation_classify False \
    --use_doc_unwarping False \
    --device npu:0 \
    --save_path ./output

若您想在更多种类的硬件上使用印章文本识别产线，请参考PaddleX多硬件使用指南。

seal_recognition.md 62 KB 文件歷史 原始文件