hai 1 mes · 4852e659fe
--- a/merge_mineru_paddle_ocr.py
+++ b/merge_mineru_paddle_ocr.py
@@ -4,6 +4,7 @@
 
				 """
			
 
				 import json
			
 
				 import re
			
 
				+import argparse
			
 
				 from pathlib import Path
			
 
				 from typing import List, Dict, Tuple, Optional
			
 
				 from bs4 import BeautifulSoup
			
@@ -22,8 +23,7 @@ class MinerUPaddleOCRMerger:
 
				         self.look_ahead_window = look_ahead_window
			
 
				         self.similarity_threshold = similarity_threshold
			
 
				     
			
 
				-    def merge_table_with_bbox(self, mineru_json_path: str, paddle_json_path: str, 
			
 
				-                              output_path: Optional[str] = None) -> Dict:
			
 
				+    def merge_table_with_bbox(self, mineru_json_path: str, paddle_json_path: str) -> List[Dict]:
			
 
				         """
			
 
				         合并 MinerU 和 PaddleOCR 的结果
			
 
				         
			
@@ -35,6 +35,7 @@ class MinerUPaddleOCRMerger:
 
				         Returns:
			
 
				             合并后的结果字典
			
 
				         """
			
 
				+        merged_data = None
			
 
				         # 加载数据
			
 
				         with open(mineru_json_path, 'r', encoding='utf-8') as f:
			
 
				             mineru_data = json.load(f)
			
@@ -48,13 +49,6 @@ class MinerUPaddleOCRMerger:
 
				         # 处理 MinerU 的数据
			
 
				         merged_data = self._process_mineru_data(mineru_data, paddle_text_boxes)
			
 
				         
			
 
				-        # 保存结果
			
 
				-        if output_path:
			
 
				-            output_path = Path(output_path).resolve()
			
 
				-            output_path.parent.mkdir(parents=True, exist_ok=True)
			
 
				-            with open(str(output_path), 'w', encoding='utf-8') as f:
			
 
				-                json.dump(merged_data, f, ensure_ascii=False, indent=2)
			
 
				-        
			
 
				         return merged_data
			
 
				     
			
 
				     def _extract_paddle_text_boxes(self, paddle_data: Dict) -> List[Dict]:
			
@@ -89,6 +83,7 @@ class MinerUPaddleOCRMerger:
 
				                             paddle_text_boxes: List[Dict]) -> List[Dict]:
			
 
				         """处理 MinerU 数据，添加 bbox 信息"""
			
 
				         merged_data = []
			
 
				+        cells = None  # 存储所有表格单元格信息
			
 
				         paddle_pointer = 0  # PaddleOCR 文字框指针
			
 
				         
			
 
				         for item in mineru_data:
			
@@ -98,7 +93,7 @@ class MinerUPaddleOCRMerger:
 
				                 table_html = item.get('table_body', '')
			
 
				                 
			
 
				                 # 解析 HTML 表格并添加 bbox
			
 
				-                enhanced_html, paddle_pointer = self._enhance_table_html_with_bbox(
			
 
				+                enhanced_html, cells, paddle_pointer = self._enhance_table_html_with_bbox(
			
 
				                     table_html, paddle_text_boxes, paddle_pointer
			
 
				                 )
			
 
				                 
			
@@ -131,10 +126,13 @@ class MinerUPaddleOCRMerger:
 
				                 # 其他类型直接复制
			
 
				                 merged_data.append(item.copy())
			
 
				         
			
 
				+        if cells:
			
 
				+            merged_data.extend(cells)
			
 
				+
			
 
				         return merged_data
			
 
				     
			
 
				     def _enhance_table_html_with_bbox(self, html: str, paddle_text_boxes: List[Dict], 
			
 
				-                                      start_pointer: int) -> Tuple[str, int]:
			
 
				+                                      start_pointer: int) -> Tuple[str, List[Dict], int]:
			
 
				         """
			
 
				         为 HTML 表格添加 bbox 信息
			
 
				         
			
@@ -144,11 +142,12 @@ class MinerUPaddleOCRMerger:
 
				             start_pointer: 起始指针位置
			
 
				         
			
 
				         Returns:
			
 
				-            (增强后的 HTML, 新的指针位置)
			
 
				+            (增强后的 HTML, 单元格数组, 新的指针位置)
			
 
				         """
			
 
				         soup = BeautifulSoup(html, 'html.parser')
			
 
				         current_pointer = start_pointer
			
 
				-        
			
 
				+        cells = []  # 存储单元格的 bbox 信息
			
 
				+
			
 
				         # 遍历所有单元格
			
 
				         for cell in soup.find_all(['td', 'th']):
			
 
				             cell_text = cell.get_text(strip=True)
			
@@ -167,11 +166,18 @@ class MinerUPaddleOCRMerger:
 
				                 cell['data-bbox'] = f"[{bbox[0]},{bbox[1]},{bbox[2]},{bbox[3]}]"
			
 
				                 cell['data-score'] = f"{matched_bbox['score']:.4f}"
			
 
				                 cell['data-paddle-index'] = str(matched_bbox['paddle_bbox_index'])
			
 
				-                
			
 
				+
			
 
				+                cells.append({
			
 
				+                    'type': 'table_cell',
			
 
				+                    'text': cell_text,
			
 
				+                    'bbox': bbox,
			
 
				+                    'score': matched_bbox['score'],
			
 
				+                    'paddle_bbox_index': matched_bbox['paddle_bbox_index']
			
 
				+                })
			
 
				                 # 标记为已使用
			
 
				                 matched_bbox['used'] = True
			
 
				         
			
 
				-        return str(soup), current_pointer
			
 
				+        return str(soup), cells, current_pointer
			
 
				     
			
 
				     def _find_matching_bbox(self, target_text: str, text_boxes: List[Dict], 
			
 
				                            start_index: int) -> tuple[Optional[Dict], int]:
			
@@ -184,7 +190,7 @@ class MinerUPaddleOCRMerger:
 
				             start_index: 起始索引
			
 
				         
			
 
				         Returns:
			
 
				-            匹配的文字框信息，如果未找到返回 None
			
 
				+            (匹配的文字框信息, 新的指针位置)
			
 
				         """
			
 
				         target_text = self._normalize_text(target_text)
			
 
				         
			
@@ -202,7 +208,6 @@ class MinerUPaddleOCRMerger:
 
				             box_text = self._normalize_text(text_boxes[i]['text'])
			
 
				             
			
 
				             # 计算相似度
			
 
				-            # similarity = fuzz.ratio(target_text, box_text)
			
 
				             similarity = fuzz.token_set_ratio(target_text, box_text)
			
 
				             
			
 
				             # 精确匹配优先
			
@@ -319,7 +324,58 @@ class MinerUPaddleOCRMerger:
 
				         return cells
			
 
				 
			
 
				 
			
 
				-def merge_mineru_paddle_batch(mineru_dir: str, paddle_dir: str, output_dir: str):
			
 
				+def merge_single_file(mineru_file: Path, paddle_file: Path, output_dir: Path, 
			
 
				+                     merger: MinerUPaddleOCRMerger) -> bool:
			
 
				+    """
			
 
				+    合并单个文件
			
 
				+    
			
 
				+    Args:
			
 
				+        mineru_file: MinerU JSON 文件路径
			
 
				+        paddle_file: PaddleOCR JSON 文件路径
			
 
				+        output_dir: 输出目录
			
 
				+        merger: 合并器实例
			
 
				+    
			
 
				+    Returns:
			
 
				+        是否成功
			
 
				+    """
			
 
				+    print(f"📄 处理: {mineru_file.name}")
			
 
				+    
			
 
				+    # 输出文件路径
			
 
				+    merged_json_path = output_dir / f"{mineru_file.stem}.json"
			
 
				+    
			
 
				+    try:
			
 
				+        # 合并数据
			
 
				+        merged_data = merger.merge_table_with_bbox(
			
 
				+            str(mineru_file),
			
 
				+            str(paddle_file)
			
 
				+        )
			
 
				+        
			
 
				+        # 生成 Markdown
			
 
				+        # merger.generate_enhanced_markdown(merged_data, str(merged_md_path))
			
 
				+        
			
 
				+        # 提取单元格信息
			
 
				+        # cells = merger.extract_table_cells_with_bbox(merged_data)
			
 
				+        
			
 
				+        with open(merged_json_path, 'w', encoding='utf-8') as f:
			
 
				+            json.dump(merged_data, f, ensure_ascii=False, indent=2)
			
 
				+
			
 
				+        print(f"  ✅ 合并完成")
			
 
				+        print(f"  📊 共处理了 {len(merged_data)} 个对象")
			
 
				+        print(f"  💾 输出文件:")
			
 
				+        print(f"    - {merged_json_path.name}")
			
 
				+        
			
 
				+        return True
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"  ❌ 处理失败: {e}")
			
 
				+        import traceback
			
 
				+        traceback.print_exc()
			
 
				+        return False
			
 
				+
			
 
				+
			
 
				+def merge_mineru_paddle_batch(mineru_dir: str, paddle_dir: str, output_dir: str,
			
 
				+                              look_ahead_window: int = 10, 
			
 
				+                              similarity_threshold: int = 80):
			
 
				     """
			
 
				     批量合并 MinerU 和 PaddleOCR 的结果
			
 
				     
			
@@ -327,73 +383,229 @@ def merge_mineru_paddle_batch(mineru_dir: str, paddle_dir: str, output_dir: str)
 
				         mineru_dir: MinerU 结果目录
			
 
				         paddle_dir: PaddleOCR 结果目录
			
 
				         output_dir: 输出目录
			
 
				+        look_ahead_window: 向前查找窗口大小
			
 
				+        similarity_threshold: 相似度阈值
			
 
				     """
			
 
				     mineru_path = Path(mineru_dir)
			
 
				     paddle_path = Path(paddle_dir)
			
 
				     output_path = Path(output_dir)
			
 
				     output_path.mkdir(parents=True, exist_ok=True)
			
 
				     
			
 
				-    merger = MinerUPaddleOCRMerger(look_ahead_window=10, similarity_threshold=80)
			
 
				+    merger = MinerUPaddleOCRMerger(
			
 
				+        look_ahead_window=look_ahead_window, 
			
 
				+        similarity_threshold=similarity_threshold
			
 
				+    )
			
 
				     
			
 
				-    # 查找所有 MinerU 的 JSON 文件, page_001.json
			
 
				+    # 查找所有 MinerU 的 JSON 文件
			
 
				     mineru_files = list(mineru_path.glob('*_page_*[0-9].json'))
			
 
				     mineru_files.sort()
			
 
				     
			
 
				-    print(f"找到 {len(mineru_files)} 个 MinerU 文件")
			
 
				+    print(f"\n🔍 找到 {len(mineru_files)} 个 MinerU 文件")
			
 
				+    print(f"📂 MinerU 目录: {mineru_dir}")
			
 
				+    print(f"📂 PaddleOCR 目录: {paddle_dir}")
			
 
				+    print(f"📂 输出目录: {output_dir}")
			
 
				+    print(f"⚙️  查找窗口: {look_ahead_window}")
			
 
				+    print(f"⚙️  相似度阈值: {similarity_threshold}%\n")
			
 
				+    
			
 
				+    success_count = 0
			
 
				+    failed_count = 0
			
 
				     
			
 
				     for mineru_file in mineru_files:
			
 
				         # 查找对应的 PaddleOCR 文件
			
 
				         paddle_file = paddle_path / mineru_file.name
			
 
				         
			
 
				         if not paddle_file.exists():
			
 
				-            print(f"⚠️ 未找到对应的 PaddleOCR 文件: {paddle_file}")
			
 
				+            print(f"⚠️  跳过: 未找到对应的 PaddleOCR 文件: {paddle_file.name}\n")
			
 
				+            failed_count += 1
			
 
				             continue
			
 
				         
			
 
				-        print(f"处理: {mineru_file.name}")
			
 
				-        
			
 
				-        # 输出文件路径
			
 
				-        merged_json_path = output_path / f"{mineru_file.stem}_merged.json"
			
 
				-        merged_md_path = output_path / f"{mineru_file.stem}_merged.md"
			
 
				-        cells_json_path = output_path / f"{mineru_file.stem}_cells.json"
			
 
				+        if merge_single_file(mineru_file, paddle_file, output_path, merger):
			
 
				+            success_count += 1
			
 
				+        else:
			
 
				+            failed_count += 1
			
 
				         
			
 
				-        try:
			
 
				-            # 合并数据
			
 
				-            merged_data = merger.merge_table_with_bbox(
			
 
				-                str(mineru_file),
			
 
				-                str(paddle_file),
			
 
				-                str(merged_json_path)
			
 
				-            )
			
 
				-            
			
 
				-            # 生成 Markdown
			
 
				-            merger.generate_enhanced_markdown(merged_data, str(merged_md_path))
			
 
				-            
			
 
				-            # 提取单元格信息
			
 
				-            cells = merger.extract_table_cells_with_bbox(merged_data)
			
 
				-            
			
 
				-            with open(cells_json_path, 'w', encoding='utf-8') as f:
			
 
				-                json.dump(cells, f, ensure_ascii=False, indent=2)
			
 
				-            
			
 
				-            print(f"  ✅ 合并完成")
			
 
				-            print(f"  - 提取了 {len(cells)} 个表格单元格")
			
 
				-            
			
 
				-        except Exception as e:
			
 
				-            print(f"  ❌ 处理失败: {e}")
			
 
				-            import traceback
			
 
				-            traceback.print_exc()
			
 
				+        print()  # 空行分隔
			
 
				+    
			
 
				+    # 打印统计信息
			
 
				+    print("=" * 60)
			
 
				+    print(f"✅ 处理完成!")
			
 
				+    print(f"📊 统计信息:")
			
 
				+    print(f"  - 总文件数: {len(mineru_files)}")
			
 
				+    print(f"  - 成功: {success_count}")
			
 
				+    print(f"  - 失败: {failed_count}")
			
 
				+    print("=" * 60)
			
 
				 
			
 
				 
			
 
				-if __name__ == "__main__":
			
 
				-    # 示例用法
			
 
				-    mineru_dir = "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/mineru-vlm-2.5.3_Results"
			
 
				-    paddle_dir = "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/data_PPStructureV3_Results"
			
 
				-    output_dir = "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/merged_results"
			
 
				-    
			
 
				-    merge_mineru_paddle_batch(mineru_dir, paddle_dir, output_dir)
			
 
				+def main():
			
 
				+    """主函数"""
			
 
				+    parser = argparse.ArgumentParser(
			
 
				+        description='合并 MinerU 和 PaddleOCR 的识别结果，添加 bbox 坐标信息',
			
 
				+        formatter_class=argparse.RawDescriptionHelpFormatter,
			
 
				+        epilog="""
			
 
				+示例用法:
			
 
				 
			
 
				-    # 示例：合并1个文件
			
 
				-    # mineru_json = "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/mineru-vlm-2.5.3_Results/A用户_单元格扫描流水_page_001.json"
			
 
				-    # paddle_json = "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/data_PPStructureV3_Results/A用户_单元格扫描流水_page_001.json"
			
 
				-    # output_json = "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/merged_results/A用户_单元格扫描流水_page_001.json"
			
 
				+  1. 批量处理整个目录:
			
 
				+     python merge_mineru_paddle_ocr.py \\
			
 
				+         --mineru-dir /path/to/mineru/results \\
			
 
				+         --paddle-dir /path/to/paddle/results \\
			
 
				+         --output-dir /path/to/output
			
 
				 
			
 
				-    # merger = MinerUPaddleOCRMerger(look_ahead_window=10, similarity_threshold=80)
			
 
				-    # merger.merge_table_with_bbox(mineru_json, paddle_json, output_json)
			
 
				+  2. 处理单个文件:
			
 
				+     python merge_mineru_paddle_ocr.py \\
			
 
				+         --mineru-file /path/to/file_page_001.json \\
			
 
				+         --paddle-file /path/to/file_page_001.json \\
			
 
				+         --output-dir /path/to/output
			
 
				+
			
 
				+  3. 自定义参数:
			
 
				+     python merge_mineru_paddle_ocr.py \\
			
 
				+         --mineru-dir /path/to/mineru \\
			
 
				+         --paddle-dir /path/to/paddle \\
			
 
				+         --output-dir /path/to/output \\
			
 
				+         --window 15 \\
			
 
				+         --threshold 85
			
 
				+        """
			
 
				+    )
			
 
				+    
			
 
				+    # 文件/目录参数
			
 
				+    file_group = parser.add_argument_group('文件参数')
			
 
				+    file_group.add_argument(
			
 
				+        '--mineru-file', 
			
 
				+        type=str,
			
 
				+        help='MinerU 输出的 JSON 文件路径（单文件模式）'
			
 
				+    )
			
 
				+    file_group.add_argument(
			
 
				+        '--paddle-file', 
			
 
				+        type=str,
			
 
				+        help='PaddleOCR 输出的 JSON 文件路径（单文件模式）'
			
 
				+    )
			
 
				+    
			
 
				+    dir_group = parser.add_argument_group('目录参数')
			
 
				+    dir_group.add_argument(
			
 
				+        '--mineru-dir', 
			
 
				+        type=str,
			
 
				+        help='MinerU 结果目录（批量模式）'
			
 
				+    )
			
 
				+    dir_group.add_argument(
			
 
				+        '--paddle-dir', 
			
 
				+        type=str,
			
 
				+        help='PaddleOCR 结果目录（批量模式）'
			
 
				+    )
			
 
				+    
			
 
				+    # 输出参数
			
 
				+    output_group = parser.add_argument_group('输出参数')
			
 
				+    output_group.add_argument(
			
 
				+        '-o', '--output-dir',
			
 
				+        type=str,
			
 
				+        required=True,
			
 
				+        help='输出目录（必需）'
			
 
				+    )
			
 
				+    
			
 
				+    # 算法参数
			
 
				+    algo_group = parser.add_argument_group('算法参数')
			
 
				+    algo_group.add_argument(
			
 
				+        '-w', '--window',
			
 
				+        type=int,
			
 
				+        default=10,
			
 
				+        help='向前查找的窗口大小（默认: 10）'
			
 
				+    )
			
 
				+    algo_group.add_argument(
			
 
				+        '-t', '--threshold',
			
 
				+        type=int,
			
 
				+        default=80,
			
 
				+        help='文本相似度阈值（0-100，默认: 80）'
			
 
				+    )
			
 
				+    
			
 
				+    args = parser.parse_args()
			
 
				+    
			
 
				+    # 验证参数
			
 
				+    if args.mineru_file and args.paddle_file:
			
 
				+        # 单文件模式
			
 
				+        mineru_file = Path(args.mineru_file)
			
 
				+        paddle_file = Path(args.paddle_file)
			
 
				+        output_dir = Path(args.output_dir)
			
 
				+        
			
 
				+        if not mineru_file.exists():
			
 
				+            print(f"❌ 错误: MinerU 文件不存在: {mineru_file}")
			
 
				+            return
			
 
				+        
			
 
				+        if not paddle_file.exists():
			
 
				+            print(f"❌ 错误: PaddleOCR 文件不存在: {paddle_file}")
			
 
				+            return
			
 
				+        
			
 
				+        output_dir.mkdir(parents=True, exist_ok=True)
			
 
				+        
			
 
				+        print("\n🔧 单文件处理模式")
			
 
				+        print(f"📄 MinerU 文件: {mineru_file}")
			
 
				+        print(f"📄 PaddleOCR 文件: {paddle_file}")
			
 
				+        print(f"📂 输出目录: {output_dir}")
			
 
				+        print(f"⚙️  查找窗口: {args.window}")
			
 
				+        print(f"⚙️  相似度阈值: {args.threshold}%\n")
			
 
				+        
			
 
				+        merger = MinerUPaddleOCRMerger(
			
 
				+            look_ahead_window=args.window,
			
 
				+            similarity_threshold=args.threshold
			
 
				+        )
			
 
				+        
			
 
				+        success = merge_single_file(mineru_file, paddle_file, output_dir, merger)
			
 
				+        
			
 
				+        if success:
			
 
				+            print("\n✅ 处理完成!")
			
 
				+        else:
			
 
				+            print("\n❌ 处理失败!")
			
 
				+    
			
 
				+    elif args.mineru_dir and args.paddle_dir:
			
 
				+        # 批量模式
			
 
				+        if not Path(args.mineru_dir).exists():
			
 
				+            print(f"❌ 错误: MinerU 目录不存在: {args.mineru_dir}")
			
 
				+            return
			
 
				+        
			
 
				+        if not Path(args.paddle_dir).exists():
			
 
				+            print(f"❌ 错误: PaddleOCR 目录不存在: {args.paddle_dir}")
			
 
				+            return
			
 
				+        
			
 
				+        print("\n🔧 批量处理模式")
			
 
				+        
			
 
				+        merge_mineru_paddle_batch(
			
 
				+            args.mineru_dir,
			
 
				+            args.paddle_dir,
			
 
				+            args.output_dir,
			
 
				+            look_ahead_window=args.window,
			
 
				+            similarity_threshold=args.threshold
			
 
				+        )
			
 
				+    
			
 
				+    else:
			
 
				+        parser.print_help()
			
 
				+        print("\n❌ 错误: 请指定单文件模式或批量模式的参数")
			
 
				+        print("  单文件模式: --mineru-file 和 --paddle-file")
			
 
				+        print("  批量模式: --mineru-dir 和 --paddle-dir")
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    print("🚀 启动 MinerU + PaddleOCR 合并程序...")
			
 
				+    
			
 
				+    import sys
			
 
				+    
			
 
				+    if len(sys.argv) == 1:
			
 
				+        # 如果没有命令行参数，使用默认配置运行
			
 
				+        print("ℹ️  未提供命令行参数，使用默认配置运行...")
			
 
				+        
			
 
				+        # 默认配置
			
 
				+        default_config = {
			
 
				+            "mineru-dir": "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/mineru-vlm-2.5.3_Results",
			
 
				+            "paddle-dir": "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/data_PPStructureV3_Results",
			
 
				+            "output-dir": "/Users/zhch158/workspace/data/流水分析/A用户_单元格扫描流水/merged_results",
			
 
				+            "window": "15",
			
 
				+            "threshold": "85"
			
 
				+        }
			
 
				+        
			
 
				+        print(f"📂 MinerU 目录: {default_config['mineru-dir']}")
			
 
				+        print(f"📂 PaddleOCR 目录: {default_config['paddle-dir']}")
			
 
				+        print(f"📂 输出目录: {default_config['output-dir']}")
			
 
				+        print(f"⚙️  查找窗口: {default_config['window']}")
			
 
				+        print(f"⚙️  相似度阈值: {default_config['threshold']}%\n")
			
 
				+        
			
 
				+        # 构造参数
			
 
				+        sys.argv = [sys.argv[0]]
			
 
				+        for key, value in default_config.items():
			
 
				+            sys.argv.extend([f"--{key}", str(value)])
			
 
				+    
			
 
				+    sys.exit(main())