|
|
@@ -59,11 +59,11 @@ class PaddleOCRVLMerger:
|
|
|
paddle_data = json.load(f)
|
|
|
|
|
|
# 提取 PaddleOCR 的文字框信息
|
|
|
- paddle_text_boxes = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
|
|
|
+ paddle_text_boxes, rotation_angle, orig_image_size = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
|
|
|
|
|
|
# 处理 PaddleOCR_VL 的数据, merge后已是minerU json格式
|
|
|
merged_data = self.data_processor.process_paddleocr_vl_data(
|
|
|
- paddleocr_vl_data, paddle_text_boxes
|
|
|
+ paddleocr_vl_data, paddle_text_boxes, rotation_angle, orig_image_size
|
|
|
)
|
|
|
|
|
|
# 不用再转换,
|