Bladeren bron

Merge pull request #39 from myhloli/master

增加一个block嵌套问题的todo
myhloli 1 jaar geleden
bovenliggende
commit
61572264a7
2 gewijzigde bestanden met toevoegingen van 5 en 1 verwijderingen
  1. 1 1
      magic_pdf/model/magic_model.py
  2. 4 0
      magic_pdf/pdf_parse_by_ocr_v2.py

+ 1 - 1
magic_pdf/model/magic_model.py

@@ -385,7 +385,7 @@ class MagicModel:
         allow_category_id_list = [3, 5, 13, 14, 15]
         """当成span拼接的"""
         #  3: 'image', # 图片
-        #  4: 'table',       # 表格
+        #  5: 'table',       # 表格
         #  13: 'inline_equation',     # 行内公式
         #  14: 'interline_equation',      # 行间公式
         #  15: 'text',      # ocr识别文本

+ 4 - 0
magic_pdf/pdf_parse_by_ocr_v2.py

@@ -70,6 +70,10 @@ def parse_pdf_by_ocr(pdf_bytes,
         '''根据layout顺序,对当前页面所有需要留下的block进行排序'''
         sorted_blocks = sort_blocks_by_layout(all_bboxes, layout_bboxes)
 
+        '''block嵌套问题解决'''
+        #@todo 1. text block大框套小框,删除小框 2. 图片或文本框与舍弃框重叠,优先信任舍弃框 3. 文本框与标题框重叠,优先信任文本框
+
+
         '''获取所有需要拼接的span资源'''
         spans = magic_model.get_all_spans(page_id)
         '''删除重叠spans中较小的那些'''