text_image_unwarping.md 7.7 KB


comments: true

文本图像矫正模块使用教程

一、概述

文本图像矫正的主要目的是针对图像进行几何变换,以纠正图像中的文档扭曲、倾斜、透视变形等问题,以供后续的文本识别进行更加准确。

二、支持模型列表

模型模型下载链接 CER 模型存储大小(M) 介绍
UVDoc推理模型/训练模型 0.179 30.3 M 高精度文本图像矫正模型
模型的精度指标测量自 [DocUNet benchmark](https://www3.cs.stonybrook.edu/~cvl/docunet.html)。 ## 三、快速集成 在快速集成前,首先需要安装PaddleX的wheel包,wheel的安装方式请参考 [PaddleX本地安装教程](../../../installation/installation.md)。完成wheel包的安装后,几行代码即可完成图像矫正模块的推理,可以任意切换该模块下的模型,您也可以将图像矫正的模块中的模型推理集成到您的项目中。运行以下代码前,请您下载[示例图片](https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/doc_test.jpg)到本地。 ```python from paddlex import create_model model = create_model(model_name="UVDoc") output = model.predict("doc_test.jpg", batch_size=1) for res in output: res.print() res.save_to_img(save_path="./output/") res.save_to_json(save_path="./output/res.json") ``` 运行后,得到的结果为: ```bash {'res': "{'input_path': 'doc_test.jpg', 'doctr_img': '...'}"} ``` 运行结果参数含义如下: - `input_path`:表示输入待矫正图像的路径 - `doctr_img`:表示矫正后的图像结果,由于数据过多不便于直接print,所以此处用`...`替换,可以通过`res.save_to_img()`将预测结果保存为图片,通过`res.save_to_json()`将预测结果保存为json文件。 可视化图片如下: 相关方法、参数等说明如下: * `create_model`实例化图像矫正模型(此处以`UVDoc`为例),具体说明如下:
参数 参数说明 参数类型 可选项 默认值
model_name 模型名称 str 所有PaddleX支持的模型名称
model_dir 模型存储路径 str
  • 其中,model_name 必须指定,指定 model_name 后,默认使用 PaddleX 内置的模型参数,在此基础上,指定 model_dir 时,使用用户自定义的模型。

  • 调用图像矫正模型的 predict() 方法进行推理预测,predict() 方法参数有 inputbatch_size,具体说明如下:

参数 参数说明 参数类型 可选项 默认值
input 待预测数据,支持多种输入类型 Python Var/str/dict/list
  • Python变量,如numpy.ndarray表示的图像数据
  • 文件路径,如图像文件的本地路径:/root/data/img.jpg
  • URL链接,如图像文件的网络URL:示例
  • 本地目录,该目录下需包含待预测数据文件,如本地路径:/root/data/
  • 字典,字典的key需与具体任务对应,如图像分类任务对应\"img\",字典的val支持上述类型数据,例如:{\"img\": \"/root/data1\"}
  • 列表,列表元素需为上述类型数据,如[numpy.ndarray, numpy.ndarray][\"/root/data/img1.jpg\", \"/root/data/img2.jpg\"][\"/root/data1\", \"/root/data2\"][{\"img\": \"/root/data1\"}, {\"img\": \"/root/data2/img.jpg\"}]
batch_size 批大小 int 任意整数 1
  • 对预测结果进行处理,每个样本的预测结果均为dict类型,且支持打印、保存为图片、保存为json文件的操作:
方法 方法说明 参数 参数类型 参数说明 默认值
print() 打印结果到终端 format_json bool 是否对输出内容进行使用 JSON 缩进格式化 True
indent int 指定缩进级别,以美化输出的 JSON 数据,使其更具可读性,仅当 format_jsonTrue 时有效 4
ensure_ascii bool 控制是否将非 ASCII 字符转义为 Unicode。设置为 True 时,所有非 ASCII 字符将被转义;False 则保留原始字符,仅当format_jsonTrue时有效 False
save_to_json() 将结果保存为json格式的文件 save_path str 保存的文件路径,当为目录时,保存文件命名与输入文件类型命名一致
indent int 指定缩进级别,以美化输出的 JSON 数据,使其更具可读性,仅当 format_jsonTrue 时有效 4
ensure_ascii bool 控制是否将非 ASCII 字符转义为 Unicode。设置为 True 时,所有非 ASCII 字符将被转义;False 则保留原始字符,仅当format_jsonTrue时有效 False
save_to_img() 将结果保存为图像格式的文件 save_path str 保存的文件路径,当为目录时,保存文件命名与输入文件类型命名一致
  • 此外,也支持通过属性获取带结果的可视化图像和预测结果,具体如下:
属性 属性说明
json 获取预测的json格式的结果
img 获取格式为dict的可视化图像

关于更多 PaddleX 的单模型推理的 API 的使用方法,可以参考PaddleX单模型Python脚本使用说明

四、二次开发

当前模块暂时不支持微调训练,仅支持推理集成。关于该模块的微调训练,计划在未来支持。