Bläddra i källkod

feat: 更新合并逻辑以提取旋转角度和原始图像尺寸,增强数据处理能力

zhch158_admin 3 dagar sedan
förälder
incheckning
07f07a9842
1 ändrade filer med 2 tillägg och 2 borttagningar
  1. 2 2
      merger/dotsocr_merger.py

+ 2 - 2
merger/dotsocr_merger.py

@@ -59,11 +59,11 @@ class DotsOCRMerger:
             paddle_data = json.load(f)
         
         # 🎯 提取 PaddleOCR 的文字框信息
-        paddle_text_boxes = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
+        paddle_text_boxes, rotation_angle, orig_image_size = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
         
         # 🎯 使用专门的 DotsOCR 处理方法(自动转换为 MinerU 格式)
         merged_data = self.data_processor.process_dotsocr_data(
-            dotsocr_data, paddle_text_boxes
+            dotsocr_data, paddle_text_boxes, rotation_angle, orig_image_size
         )
         
         return merged_data