OCRAnnoTools.md 4.4 KB

数据标注指南

本文档将介绍如何使用 PPOCRLabel 完成 PP-OCR 单模型和表格识别的数据标注。

点击上述链接,参考首页文档即可安装数据标注工具并查看详细使用流程,以下提供简洁版本说明:

1.安装paddlepaddle

安装过程请参考[飞桨安装文档]()

2.安装与运行 PPOCRLabel

PPOCRLabel 可通过 wheel 包与 Python 脚本两种方式启动,wheel 包形式启动更加方便,这里只提供 whl 包说明:

  • windows 安装:

    pip install PPOCRLabel  # 安装
    
    # 选择标签模式来启动
    PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签
    
  • MacOS

    pip3 install PPOCRLabel
    pip3 install opencv-contrib-python-headless==4.2.0.32 # 如果下载过慢请添加"-i https://mirror.baidu.com/pypi/simple"
    
    # 选择标签模式来启动
    PPOCRLabel --lang ch  # 启动【普通模式】,用于打【检测+识别】场景的标签
    

注: 更多环境安装请参考详细说明

3.操作步骤

文本检测和文本识别的标注过程:

  1. 安装与运行:使用上述命令安装与运行程序。
  2. 打开文件夹:在菜单栏点击 “文件” - "打开目录" 选择待标记图片的文件夹.
  3. 自动标注:点击 ”自动标注“,使用 PP-OCR 超轻量模型对图片文件名前图片状态为 “X” 的图片进行自动标注。
  4. 手动标注:点击 “矩形标注”(推荐直接在英文模式下点击键盘中的 “W”),用户可对当前图片中模型未检出的部分进行手动绘制标记框。点击键盘 Q,则使用四点标注模式(或点击“编辑” - “四点标注”),用户依次点击 4 个点后,双击左键表示标注完成。
  5. 标记框绘制完成后,用户点击 “确认”,检测框会先被预分配一个 “待识别” 标签。
  6. 重新识别:将图片中的所有检测画绘制/调整完成后,点击 “重新识别”,PP-OCR 模型会对当前图片中的 所有检测框 重新识别。
  7. 内容更改:单击识别结果,对不准确的识别结果进行手动更改。
  8. 确认标记:点击 “确认”,图片状态切换为 “√”,跳转至下一张。
  9. 删除:点击 “删除图像”,图片将会被删除至回收站。
  10. 导出结果:用户可以通过菜单中“文件-导出标记结果”手动导出,同时也可以点击“文件 - 自动导出标记结果”开启自动导出。手动确认过的标记将会被存放在所打开图片文件夹下的 Label.txt 中。在菜单栏点击 “文件” - "导出识别结果"后,会将此类图片的识别训练数据保存在 crop_img 文件夹下,识别标签保存在 rec_gt.txt 中。

表格识别的标注过程:

表格标注针对表格的结构化提取,将图片中的表格转换为 Excel 格式,因此标注时需要配合外部软件打开 Excel 同时完成。在 PPOCRLabel 软件中完成表格中的文字信息标注(文字与位置)、在 Excel 文件中完成表格结构信息标注,推荐的步骤为:

  1. 表格识别:打开表格图片后,点击软件右上角表格识别按钮,软件调用 PP-Structure 中的表格识别模型,自动为表格打标签,同时弹出 Excel。
  2. 更改标注结果:以表格中的单元格为单位增加标注框(即一个单元格内的文字都标记为一个框)。标注框上鼠标右键后点击单元格重识别可利用模型自动识别单元格内的文字。
  3. 调整单元格顺序: 点击软件视图-显示框编号打开标注框序号,在软件界面右侧拖动识别结果一栏下的所有结果,使得标注框编号按照从左到右,从上到下的顺序排列,按行依次标注。
  4. 标注表格结构:在外部 Excel 软件中,将存在文字的单元格标记为任意标识符(如1) ,保证 Excel 中的单元格合并情况与原图相同即可(即不需要 Excel 中的单元格文字与图片中的文字完全相同)。
  5. 导出 JSON 格式:关闭所有表格图像对应的Excel,点击文件-导出表格标注,生成 gt.txt 标注文件。

遇到问题可以参考:操作视频