2 Achegas 038666f9ed ... e9e17431e8

Autor SHA1 Mensaxe Data
  zhch158_admin e9e17431e8 feat: 注释掉过短候选文本的过滤逻辑,避免单字符匹配 hai 1 semana
  zhch158_admin d813017609 feat: 更新默认配置文件路径,指向新的 PaddleOCR_VL 和 PaddleOCR 文件 hai 1 semana
Modificáronse 2 ficheiros con 4 adicións e 4 borrados
  1. 2 2
      merger/merge_paddleocr_vl_paddleocr.py
  2. 2 2
      merger/text_matcher.py

+ 2 - 2
merger/merge_paddleocr_vl_paddleocr.py

@@ -285,8 +285,8 @@ if __name__ == "__main__":
     if len(sys.argv) == 1:
         # 默认配置
         default_config = {
-            "paddleocr-vl-file": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/paddleocr_vl_results/2023年度报告母公司_page_003.json",
-            "paddle-file": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/ppstructurev3_client_results/2023年度报告母公司_page_003.json",
+            "paddleocr-vl-file": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/paddleocr_vl_results/2023年度报告母公司_page_005.json",
+            "paddle-file": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/ppstructurev3_client_results/2023年度报告母公司_page_005.json",
             "output-dir": "/Users/zhch158/workspace/data/流水分析/2023年度报告母公司/paddleocr_vl_results_cell_bbox",
             "output-type": "both",
             "window": "15",

+ 2 - 2
merger/text_matcher.py

@@ -88,8 +88,8 @@ class TextMatcher:
                     return text_boxes[i], start_index, i
             
             # 过滤过短的候选文本(避免单字符匹配)
-            if len(box_text) < 2:
-                continue
+            # if len(box_text) < 2:
+            #     continue
             
             # 长度比例检查 - 避免长度差异过大的匹配
             length_ratio = min(len(target_text), len(box_text)) / max(len(target_text), len(box_text))