Explorar o código

feat: 优化 PaddleOCR_VL 数据处理逻辑,移除不必要的格式转换

zhch158_admin hai 1 semana
pai
achega
038666f9ed
Modificáronse 1 ficheiros con 6 adicións e 5 borrados
  1. 6 5
      merger/paddleocr_vl_merger.py

+ 6 - 5
merger/paddleocr_vl_merger.py

@@ -61,16 +61,17 @@ class PaddleOCRVLMerger:
         # 提取 PaddleOCR 的文字框信息
         paddle_text_boxes = self.bbox_extractor.extract_paddle_text_boxes(paddle_data)
         
-        # 处理 PaddleOCR_VL 的数据
+        # 处理 PaddleOCR_VL 的数据, merge后已是minerU json格式
         merged_data = self.data_processor.process_paddleocr_vl_data(
             paddleocr_vl_data, paddle_text_boxes
         )
         
+        # 不用再转换,
         # 转换为指定格式
-        if data_format == 'mineru':
-            merged_data = self.output_converter.convert_to_mineru_format(
-                merged_data, data_source='paddleocr_vl'
-            )
+        # if data_format == 'mineru':
+        #     merged_data = self.output_converter.convert_to_mineru_format(
+        #         merged_data, data_source='paddleocr_vl'
+        #     )
         
         return merged_data