ソースを参照

fix: 调整表格处理中的padding策略,优化边缘保护与噪声控制的平衡

zhch158_admin 1 日 前
コミット
3cf3aa5085
1 ファイル変更5 行追加2 行削除
  1. 5 2
      ocr_tools/universal_doc_parser/core/element_processors.py

+ 5 - 2
ocr_tools/universal_doc_parser/core/element_processors.py

@@ -204,8 +204,11 @@ class ElementProcessors:
         table_height = bbox[3] - bbox[1]
 
         # 为倾斜图片添加padding,确保角落内容不被切掉
-        # padding = 表格宽度的1% + 表格高度的1%,最小20像素
-        crop_padding = max(20, int(min(table_width, table_height) * 0.01))
+        # 使用固定的适度padding(10像素),平衡边缘保护和噪声控制
+        # - padding太大(如20+):会引入较多背景噪声,且坐标转换复杂度增加
+        # - padding=0:边缘内容可能被切断,UNet边缘效应明显
+        # - padding=10:最佳平衡点,足以保护边缘1-2个像素的偏移,噪声可控
+        crop_padding = 10
 
         cropped_table = CoordinateUtils.crop_region(image, bbox, padding=crop_padding)
         table_angle = 0