浏览代码

删除高度或者宽度为0的spans

赵小蒙 1 年之前
父节点
当前提交
0b35b73c64
共有 1 个文件被更改,包括 6 次插入0 次删除
  1. 6 0
      magic_pdf/pdf_parse_by_ocr.py

+ 6 - 0
magic_pdf/pdf_parse_by_ocr.py

@@ -156,6 +156,9 @@ def parse_pdf_by_ocr(
                     int(x1 / horizontal_scale_ratio),
                     int(y1 / vertical_scale_ratio),
                 ]
+                # 删除高度或者宽度为0的spans
+                if bbox[2] - bbox[0] == 0 or bbox[3] - bbox[1] == 0:
+                    continue
                 """要删除的"""
                 #  3: 'header',      # 页眉
                 #  4: 'page number', # 页码
@@ -193,6 +196,9 @@ def parse_pdf_by_ocr(
             else:
                 continue
 
+
+
+
         # 删除重叠spans中较小的那些
         spans = remove_overlaps_min_spans(spans)