Quellcode durchsuchen

feat: 添加table_cells_field配置,更新A用户和B用户的cell_bbox数据源,移除不必要的图片合成数据源

zhch158_admin vor 1 Monat
Ursprung
Commit
22737869da
1 geänderte Dateien mit 7 neuen und 24 gelöschten Zeilen
  1. 7 24
      config.yaml

+ 7 - 24
config.yaml

@@ -92,6 +92,7 @@ ocr:
       confidence_field: "confidence"
       # 表格相关字段
       table_body_field: "table_body"
+      table_cells_field: "table_cells"
       img_path_field: "img_path"
       # 旋转处理配置
       rotation:
@@ -135,24 +136,12 @@ data_sources:
     src_img_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水.img"
     description: "A用户使用Mineru的识别结果"
 
-  - name: "A用户_单元格扫描流水_CELL_BBOX"
+  - name: "A用户_单元格扫描流水_cell_bbox"
     ocr_tool: "mineru"
     ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/merged_results"
     src_img_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水.img"
     description: "A用户使用Mineru VLM识别结果, 整合PaddleOCR坐标"
 
-  - name: "A用户_单元格图片合成"
-    ocr_tool: "dots_ocr"
-    ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格图片合成/data_DotsOCR_Results"
-    src_img_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格图片合成/data_DotsOCR_Results/A用户_单元格图片合成"
-    description: "A用户使用Dots OCR的单元格图片合成结果"
-
-  - name: "A用户_单元格图片合成"
-    ocr_tool: "ppstructv3"
-    ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格图片合成/data_PPStructureV3_Results"
-    src_img_dir: "/Users/zhch158/workspace/data/流水分析/A用户_单元格图片合成/data_PPStructureV3_Results/A用户_单元格图片合成"
-    description: "A用户使用PPStructV3的单元格图片合成结果"
-
   - name: "B用户_扫描流水"
     ocr_tool: "dots_ocr"
     ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/data_DotsOCR_Results"
@@ -171,17 +160,11 @@ data_sources:
     src_img_dir: "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水.img"
     description: "B用户使用Mineru的扫描结果"
 
-  - name: "B用户_图片合成流水"
-    ocr_tool: "dots_ocr"
-    ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/B用户_图片合成流水/data_DotsOCR_Results"
-    src_img_dir: "/Users/zhch158/workspace/data/流水分析/B用户_图片合成流水/data_DotsOCR_Results/B用户_图片合成流水"
-    description: "B用户使用Dots OCR的图片合成结果"
-
-  - name: "B用户_图片合成流水"
-    ocr_tool: "ppstructv3"
-    ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/B用户_图片合成流水/data_PPStructureV3_Results"
-    src_img_dir: "/Users/zhch158/workspace/data/流水分析/B用户_图片合成流水/data_PPStructureV3_Results/B用户_图片合成流水"
-    description: "B用户使用PPStructV3的图片合成结果"
+  - name: "B用户_扫描流水_cell_bbox"
+    ocr_tool: "mineru"
+    ocr_out_dir: "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水/merged_results"
+    src_img_dir: "/Users/zhch158/workspace/data/流水分析/B用户_扫描流水.img"
+    description: "B用户使用Mineru的扫描结果, 整合PaddleOCR坐标"
 
   - name: "德_内蒙古银行照"
     ocr_tool: "ppstructv3"