|
|
@@ -181,6 +181,7 @@ ocr_verify/
|
|
|
├── ocr_validator_file_utils.py # 文件处理
|
|
|
├── compare_ocr_results.py # OCR 结果对比
|
|
|
├── normalize_financial_numbers.py # 数字标准化
|
|
|
+├── merge_mineru_paddle_ocr.py # 合并 MinerU 和 Paddle OCR 结果
|
|
|
├── config.yaml # 配置文件
|
|
|
├── styles.css # 样式文件
|
|
|
├── output/ # 输出目录
|
|
|
@@ -314,6 +315,32 @@ ocr:
|
|
|
coordinates_are_pre_rotated: false
|
|
|
```
|
|
|
|
|
|
+### 合并 MinerU 和 Paddle OCR 结果
|
|
|
+```bash
|
|
|
+# 德_内蒙古银行照
|
|
|
+python merge_mineru_paddle_ocr.py \
|
|
|
+ --mineru-dir "/Users/zhch158/workspace/data/流水分析/德_内蒙古银行照/mineru-vlm-2.5.3_Results" \
|
|
|
+ --paddle-dir "/Users/zhch158/workspace/data/流水分析/德_内蒙古银行照/data_PPStructureV3_Results" \
|
|
|
+ --output-dir "/Users/zhch158/workspace/data/流水分析/德_内蒙古银行照/merged_results" \
|
|
|
+ --format "both"
|
|
|
+
|
|
|
+# 对公_招商银行图
|
|
|
+python merge_mineru_paddle_ocr.py \
|
|
|
+ --mineru-dir "/Users/zhch158/workspace/data/流水分析/对公_招商银行图/mineru-vlm-2.5.3_Results" \
|
|
|
+ --paddle-dir "/Users/zhch158/workspace/data/流水分析/对公_招商银行图/data_PPStructureV3_Results" \
|
|
|
+ --output-dir "/Users/zhch158/workspace/data/流水分析/对公_招商银行图/merged_results" \
|
|
|
+ --format "both"
|
|
|
+
|
|
|
+# 至远彩色印刷工业有限公司
|
|
|
+python merge_mineru_paddle_ocr.py \
|
|
|
+ --mineru-dir "/Users/zhch158/workspace/data/至远彩色印刷工业有限公司/mineru-vlm-2.5.3_Results" \
|
|
|
+ --paddle-dir "/Users/zhch158/workspace/data/至远彩色印刷工业有限公司/data_PPStructureV3_Results" \
|
|
|
+ --output-dir "/Users/zhch158/workspace/data/至远彩色印刷工业有限公司/merged_results" \
|
|
|
+ --format "both"
|
|
|
+
|
|
|
+
|
|
|
+```
|
|
|
+
|
|
|
### Streamlit 配置
|
|
|
|
|
|
编辑 [`.streamlit/config.toml`](.streamlit/config.toml):
|