Procházet zdrojové kódy

feat: 添加合并 MinerU 和 Paddle OCR 结果的功能,更新 README 文档以提供使用示例

zhch158_admin před 1 měsícem
rodič
revize
de450598c6
1 změnil soubory, kde provedl 27 přidání a 0 odebrání
  1. 27 0
      README.md

+ 27 - 0
README.md

@@ -181,6 +181,7 @@ ocr_verify/
 ├── ocr_validator_file_utils.py         # 文件处理
 ├── compare_ocr_results.py              # OCR 结果对比
 ├── normalize_financial_numbers.py      # 数字标准化
+├── merge_mineru_paddle_ocr.py          # 合并 MinerU 和 Paddle OCR 结果
 ├── config.yaml                         # 配置文件
 ├── styles.css                          # 样式文件
 ├── output/                             # 输出目录
@@ -314,6 +315,32 @@ ocr:
         coordinates_are_pre_rotated: false
 ```
 
+### 合并 MinerU 和 Paddle OCR 结果
+```bash
+# 德_内蒙古银行照
+python merge_mineru_paddle_ocr.py \
+  --mineru-dir "/Users/zhch158/workspace/data/流水分析/德_内蒙古银行照/mineru-vlm-2.5.3_Results" \
+  --paddle-dir "/Users/zhch158/workspace/data/流水分析/德_内蒙古银行照/data_PPStructureV3_Results" \
+  --output-dir "/Users/zhch158/workspace/data/流水分析/德_内蒙古银行照/merged_results" \
+  --format "both"
+
+# 对公_招商银行图
+python merge_mineru_paddle_ocr.py \
+  --mineru-dir "/Users/zhch158/workspace/data/流水分析/对公_招商银行图/mineru-vlm-2.5.3_Results" \
+  --paddle-dir "/Users/zhch158/workspace/data/流水分析/对公_招商银行图/data_PPStructureV3_Results" \
+  --output-dir "/Users/zhch158/workspace/data/流水分析/对公_招商银行图/merged_results" \
+  --format "both"
+
+# 至远彩色印刷工业有限公司
+python merge_mineru_paddle_ocr.py \
+  --mineru-dir "/Users/zhch158/workspace/data/至远彩色印刷工业有限公司/mineru-vlm-2.5.3_Results" \
+  --paddle-dir "/Users/zhch158/workspace/data/至远彩色印刷工业有限公司/data_PPStructureV3_Results" \
+  --output-dir "/Users/zhch158/workspace/data/至远彩色印刷工业有限公司/merged_results" \
+  --format "both"
+
+
+```
+
 ### Streamlit 配置
 
 编辑 [`.streamlit/config.toml`](.streamlit/config.toml):