Эх сурвалжийг харах

部分layout最底部的文本圈不全,降低阈值减少底边文本被丢弃的可能性

赵小蒙 1 жил өмнө
parent
commit
90ea9096e5

+ 1 - 1
magic_pdf/pre_proc/ocr_dict_merge.py

@@ -66,7 +66,7 @@ def merge_spans_to_line_by_layout(spans, layout_bboxes):
         # 遍历spans,将每个span放入对应的layout中
         layout_sapns = []
         for span in spans:
-            if calculate_overlap_area_in_bbox1_area_ratio(span['bbox'], layout_bbox) > 0.65:
+            if calculate_overlap_area_in_bbox1_area_ratio(span['bbox'], layout_bbox) > 0.6:
                 layout_sapns.append(span)
         # 如果layout_sapns不为空,则放入new_spans中
         if len(layout_sapns) > 0: