|
@@ -59,11 +59,11 @@ class DotsOCRMerger:
|
|
|
paddle_data = json.load(f)
|
|
paddle_data = json.load(f)
|
|
|
|
|
|
|
|
# 🎯 提取 PaddleOCR 的文字框信息
|
|
# 🎯 提取 PaddleOCR 的文字框信息
|
|
|
- paddle_text_boxes = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
|
|
|
|
|
|
|
+ paddle_text_boxes, rotation_angle, orig_image_size = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
|
|
|
|
|
|
|
|
# 🎯 使用专门的 DotsOCR 处理方法(自动转换为 MinerU 格式)
|
|
# 🎯 使用专门的 DotsOCR 处理方法(自动转换为 MinerU 格式)
|
|
|
merged_data = self.data_processor.process_dotsocr_data(
|
|
merged_data = self.data_processor.process_dotsocr_data(
|
|
|
- dotsocr_data, paddle_text_boxes
|
|
|
|
|
|
|
+ dotsocr_data, paddle_text_boxes, rotation_angle, orig_image_size
|
|
|
)
|
|
)
|
|
|
|
|
|
|
|
return merged_data
|
|
return merged_data
|