PPStructureV3-OmniDocBench.md 1.9 KB

正在收集工作区信息正在筛选到最相关的信息根据您的工作空间和OmniDocBench说明文档,我来帮您创建一个评估脚本,按照OmniDocBench要求的数据格式生成测试结果。

评估脚本实现

zhch/omnidocbench_eval.py

使用方法

1. 准备数据

确保您的OmniDocBench数据集结构如下:

OpenDataLab___OmniDocBench/
├── images/              # 评测图像
├── pdfs/               # PDF文件(可选)
├── OmniDocBench.json   # 标注文件
└── ...

2. 运行评估

cd zhch
python omnidocbench_eval.py

3. 查看结果

评估完成后会生成:

  • omnidocbench_results.json: 符合OmniDocBench格式的预测结果
  • evaluation_stats.json: 评估统计信息

结果格式说明

生成的结果严格按照OmniDocBench要求的JSON格式:

[
  {
    "layout_dets": [
      {
        "category_type": "text_block",
        "poly": [136.0, 781.0, 340.0, 781.0, 340.0, 806.0, 136.0, 806.0],
        "ignore": false,
        "order": 0,
        "anno_id": 0,
        "text": "识别的文本内容",
        "attribute": {"text_language": "text_simplified_chinese"},
        "line_with_spans": [...]
      }
    ],
    "page_info": {
      "page_no": 0,
      "height": 1684,
      "width": 1200,
      "image_path": "image_001.png",
      "page_attribute": {"language": "simplified_chinese"}
    },
    "extra": {"relation": []}
  }
]

后续评估

生成结果后,可以使用OmniDocBench官方评测代码进行评分:

# 克隆官方评测代码
git clone https://github.com/opendatalab/OmniDocBench.git

# 运行评测
python OmniDocBench/eval_script.py \
    --gt_path OpenDataLab___OmniDocBench/OmniDocBench.json \
    --pred_path omnidocbench_evaluation_results/omnidocbench_results.json

这个脚本会自动处理格式转换、类别映射和属性提取,确保生成的结果符合OmniDocBench的评测要求。