1
0

2 Commits e9e17431e8 ... 979d73759e

Autor SHA1 Nachricht Datum
  zhch158_admin 979d73759e feat: 调整长度比例检查逻辑,修改阈值以提高匹配准确性 vor 1 Woche
  zhch158_admin b98a9c626f feat: 修改表格行检测逻辑,支持小于10行的表格进行全面检测 vor 1 Woche
2 geänderte Dateien mit 4 neuen und 3 gelöschten Zeilen
  1. 3 2
      comparator/table_comparator.py
  2. 1 1
      merger/text_matcher.py

+ 3 - 2
comparator/table_comparator.py

@@ -304,8 +304,9 @@ class TableComparator:
         
         best_header_row = 0
         best_score = 0
-        
-        for row_idx, row in enumerate(table[:5]):  # 只检查前5行
+
+        # 如果表格行数小于10,取全部行进行检测,如果大于10,取前10行
+        for row_idx, row in enumerate(table[:10]):
             if not row:
                 continue
             

+ 1 - 1
merger/text_matcher.py

@@ -93,7 +93,7 @@ class TextMatcher:
             
             # 长度比例检查 - 避免长度差异过大的匹配
             length_ratio = min(len(target_text), len(box_text)) / max(len(target_text), len(box_text))
-            if length_ratio < 0.3:  # 长度差异超过70%则跳过
+            if length_ratio < 0.35:  # 长度差异超过1/3则跳过
                 continue
 
             # 子串检查