正在收集工作区信息正在筛选到最相关的信息根据您的工作空间和OmniDocBench说明文档,我来帮您创建一个评估脚本,按照OmniDocBench要求的数据格式生成测试结果。
zhch/omnidocbench_eval.py
确保您的OmniDocBench数据集结构如下:
OpenDataLab___OmniDocBench/
├── images/ # 评测图像
├── pdfs/ # PDF文件(可选)
├── OmniDocBench.json # 标注文件
└── ...
cd zhch
python omnidocbench_eval.py
评估完成后会生成:
omnidocbench_results.json: 符合OmniDocBench格式的预测结果evaluation_stats.json: 评估统计信息生成的结果严格按照OmniDocBench要求的JSON格式:
[
{
"layout_dets": [
{
"category_type": "text_block",
"poly": [136.0, 781.0, 340.0, 781.0, 340.0, 806.0, 136.0, 806.0],
"ignore": false,
"order": 0,
"anno_id": 0,
"text": "识别的文本内容",
"attribute": {"text_language": "text_simplified_chinese"},
"line_with_spans": [...]
}
],
"page_info": {
"page_no": 0,
"height": 1684,
"width": 1200,
"image_path": "image_001.png",
"page_attribute": {"language": "simplified_chinese"}
},
"extra": {"relation": []}
}
]
生成结果后,可以使用OmniDocBench官方评测代码进行评分:
# 克隆官方评测代码
git clone https://github.com/opendatalab/OmniDocBench.git
# 运行评测
python OmniDocBench/eval_script.py \
--gt_path OpenDataLab___OmniDocBench/OmniDocBench.json \
--pred_path omnidocbench_evaluation_results/omnidocbench_results.json
这个脚本会自动处理格式转换、类别映射和属性提取,确保生成的结果符合OmniDocBench的评测要求。