فهرست منبع

Merge pull request #1448 from myhloli/dev

fix(pdf_parse): ensure block bounding boxes do not have negative values
Xiaomeng Zhao 10 ماه پیش
والد
کامیت
27c0b150a7
5فایلهای تغییر یافته به همراه2 افزوده شده و 0 حذف شده
  1. 0 0
      README.md
  2. 0 0
      README_zh-CN.md
  3. BIN
      docs/images/MinerU-logo-hq.png
  4. BIN
      docs/images/MinerU-logo.png
  5. 2 0
      magic_pdf/pdf_parse_union_core_v2.py

تفاوت فایلی نمایش داده نمی شود زیرا این فایل بسیار بزرگ است
+ 0 - 0
README.md


تفاوت فایلی نمایش داده نمی شود زیرا این فایل بسیار بزرگ است
+ 0 - 0
README_zh-CN.md


BIN
docs/images/MinerU-logo-hq.png


BIN
docs/images/MinerU-logo.png


+ 2 - 0
magic_pdf/pdf_parse_union_core_v2.py

@@ -373,6 +373,8 @@ def cal_block_index(fix_blocks, sorted_bboxes):
         # 使用xycut排序
         block_bboxes = []
         for block in fix_blocks:
+            # 如果block['bbox']任意值小于0,将其置为0
+            block['bbox'] = [max(0, x) for x in block['bbox']]
             block_bboxes.append(block['bbox'])
 
             # 删除图表body block中的虚拟line信息, 并用real_lines信息回填

برخی فایل ها در این مقایسه diff نمایش داده نمی شوند زیرا تعداد فایل ها بسیار زیاد است