浏览代码

span进入具体的layout后,需要在下次循环前将该span移除

赵小蒙 1 年之前
父节点
当前提交
68e83c124f
共有 1 个文件被更改,包括 4 次插入0 次删除
  1. 4 0
      magic_pdf/pre_proc/ocr_dict_merge.py

+ 4 - 0
magic_pdf/pre_proc/ocr_dict_merge.py

@@ -77,6 +77,10 @@ def merge_spans_to_line_by_layout(spans, layout_bboxes):
                 layout_sapns.append(span)
         new_spans.append(layout_sapns)
 
+        # 从spans删除已经放入layout_sapns中的span
+        for layout_sapn in layout_sapns:
+            spans.remove(layout_sapn)
+
     for layout_sapns in new_spans:
         layout_lines = merge_spans_to_line(layout_sapns)
         lines.extend(layout_lines)