5 mēneši atpakaļ · 83c6b132d5
--- a/docs/ocr_tools/universal_doc_parser/模型统一框架.md
+++ b/docs/ocr_tools/universal_doc_parser/模型统一框架.md
@@ -2,6 +2,32 @@
 
				 
			
 
				 参考 MinerU 实现的模型统一框架，针对金融场景设计。
			
 
				 
			
 
				+## 核心设计理念
			
 
				+
			
 
				+### 1. 模块化与可替换性
			
 
				+框架采用**模块化设计**，各处理节点可根据不同场景灵活替换：
			
 
				+- **方向识别**：支持多种模型（PP-LCNet、PDF rotation等）
			
 
				+- **Layout检测**：支持 Docling、MinerU、Paddle、DiT 等多种检测器
			
 
				+- **OCR识别**：支持 PaddleOCR
			
 
				+- **表格识别**：支持 UNet（有线表格）、VLM（无线表格）等多种方案
			
 
				+- **公式识别**：支持 MinerU VLM、PaddleOCR-VL 等
			
 
				+
			
 
				+通过配置文件（YAML）即可切换不同的模型组合，无需修改代码。
			
 
				+
			
 
				+### 2. 统一输出格式
			
 
				+无论使用何种模型组合，**输出格式统一**，确保下游处理的一致性：
			
 
				+- **统一内部描述结构**：`middle.json`（MinerU 标准格式）
			
 
				+- **增强版格式**：`enhanced.json`（包含更多元数据）
			
 
				+- **多格式输出**：JSON、Markdown、HTML 等
			
 
				+- **坐标统一**：所有坐标统一转换回原图坐标系
			
 
				+
			
 
				+### 3. 场景适配
			
 
				+针对不同业务场景（银行流水、财务报表等），提供预配置的配置文件：
			
 
				+- 银行流水场景：`bank_statement_*.yaml`
			
 
				+- 财务报表场景：可自定义配置
			
 
				+- 支持有线/无线表格自动分类
			
 
				+- 支持文字PDF和扫描件混合处理
			
 
				+
			
 
				 ## 支持场景
			
 
				 
			
 
				 | 场景类型 | 特点 | 表格形式 |
			
@@ -16,7 +42,8 @@
 
				 | **方向分类** | PP-LCNet_x1_0_doc_ori | paddle onnx格式的模型 |
			
 
				 | **版式检测** | Docling Layout / DocLayout-YOLO | Docling 或 MinerU 模型 |
			
 
				 | **文字识别** | PaddleOCR (PyTorch) | 效果好，支持角度校正 |
			
 
				-| **表格结构识别** | MinerU VLM / PaddleOCR-VL / UNET 有线表格 | VLM 返回 HTML 结构 |
			
 
				+| **表格分类** | PaddleTableClsModel | 自动区分有线/无线表格 ⭐ 新增 |
			
 
				+| **表格结构识别** | MinerU VLM / PaddleOCR-VL / UNET 有线表格 | VLM 返回 HTML 结构，UNet 返回单元格坐标 |
			
 
				 | **公式识别** | MinerU VLM | 返回 LaTeX |
			
 
				 | **单元格坐标匹配** | TableCellMatcher | OCR 检测框与 VLM 结构匹配 |
			
 
				 
			
@@ -24,48 +51,47 @@
 
				 
			
 
				 ## 处理流程
			
 
				 
			
 
				-### 主流程图
			
 
				+### 主流程图（简化版）
			
 
				+
			
 
				+主流程采用**模块化设计**，各处理节点可根据场景配置替换：
			
 
				 
			
 
				 ```mermaid
			
 
				 graph TB
			
 
				-    A[输入 PDF/图片] --> B[加载文档并分类]
			
 
				-    
			
 
				-    B --> C{文档类型?}
			
 
				-    C -->|PDF| D[PDF分类: 扫描件/数字原生]
			
 
				-    C -->|图片目录| E[加载所有图片]
			
 
				-    
			
 
				-    D --> F[处理每一页]
			
 
				-    E --> F
			
 
				-    
			
 
				-    F --> G[页面方向识别<br/>仅扫描件]
			
 
				-    G --> H[Layout 检测]
			
 
				-    
			
 
				-    H --> I[去重重叠框]
			
 
				-    I --> J{大文本块转表格?}
			
 
				-    J -->|启用| K[后处理转换]
			
 
				-    J -->|否| L
			
 
				-    K --> L[整页 OCR<br/>获取所有 text spans]
			
 
				-    
			
 
				-    L --> M[Span 去重与排序]
			
 
				-    M --> N[Span-Block 匹配<br/>SpanMatcher]
			
 
				+    A[输入 PDF/图片] --> B[文档加载与分类]
			
 
				     
			
 
				-    N --> O[元素分类]
			
 
				-    O --> P[处理各类元素]
			
 
				+    B --> C[逐页处理<br/>详见单页处理流程]
			
 
				     
			
 
				-    P --> Q[按阅读顺序排序]
			
 
				-    Q --> R[坐标转换回原图]
			
 
				+    C --> D[跨页表格合并]
			
 
				     
			
 
				-    R --> S{所有页处理完?}
			
 
				-    S -->|否| F
			
 
				-    S -->|是| T[跨页表格合并]
			
 
				+    D --> E[统一输出格式<br/>JSON/Markdown/HTML]
			
 
				     
			
 
				-    T --> U[输出结果]
			
 
				+    style C fill:#e1f5ff
			
 
				+    style E fill:#fff4e1
			
 
				     
			
 
				-    style L fill:#e1f5ff
			
 
				-    style N fill:#e1f5ff
			
 
				-    style P fill:#fff4e1
			
 
				+    classDef replaceable fill:#ffe1e1,stroke:#ff0000,stroke-width:2px
			
 
				+    class B,C,D replaceable
			
 
				 ```
			
 
				 
			
 
				+**关键特性**：
			
 
				+- ✅ **模块化设计**：各处理节点可独立替换（见下方"可替换组件"）
			
 
				+- ✅ **统一输出格式**：无论使用何种模型组合，输出格式统一（见"输出格式说明"）
			
 
				+- ✅ **单页处理流程**：详见下方详细流程图
			
 
				+
			
 
				+**可替换组件**：
			
 
				+- **方向识别**：PP-LCNet（扫描件） / PDF rotation（文字PDF）
			
 
				+- **Layout检测**：Docling / MinerU / Paddle / DiT
			
 
				+- **OCR识别**：PaddleOCR / MinerU OCR
			
 
				+- **表格分类**：PaddleTableClsModel（可选）
			
 
				+- **表格识别**：UNet（有线） / VLM（无线：MinerU VLM / PaddleOCR-VL）
			
 
				+- **公式识别**：MinerU VLM / PaddleOCR-VL
			
 
				+
			
 
				+**统一输出格式**：
			
 
				+- `{doc}_middle.json`：MinerU 标准格式（统一内部描述结构）
			
 
				+- `{doc}_enhanced.json`：增强版格式（包含更多元数据）
			
 
				+- `{doc}_page_XXX.json`：每页独立 JSON（包含单元格坐标）
			
 
				+- `{doc}.md` / `{doc}_page_XXX.md`：Markdown 格式
			
 
				+- `tables/*.html`：表格 HTML（带 data-bbox 坐标）
			
 
				+
			
 
				 ---
			
 
				 
			
 
				 ### 单页处理详细流程
			
@@ -75,17 +101,28 @@ graph TB
 
				     A[输入：页面图像] --> B{PDF类型?}
			
 
				     
			
 
				     B -->|扫描件| C[页面方向识别<br/>PP-LCNet]
			
 
				-    B -->|数字PDF| D
			
 
				+    B -->|文字PDF| C1[获取PDF页面rotation<br/>转换为rotate_angle并旋转图像]
			
 
				     C --> D[Layout 检测<br/>Docling/MinerU/DiT]
			
 
				+    C1 --> D
			
 
				     
			
 
				     D --> E[去重重叠框<br/>IoU过滤]
			
 
				     E --> F{大文本块转表格?}
			
 
				     
			
 
				     F -->|是| G[面积占比判断<br/>转换为table类型]
			
 
				     F -->|否| H
			
 
				-    G --> H[整页 OCR<br/>获取所有 text spans]
			
 
				+    G --> H
			
 
				+    
			
 
				+    H --> H1{PDF类型?}
			
 
				+    H1 -->|扫描件| H2[整页 OCR<br/>获取所有 text spans]
			
 
				+    H1 -->|文字PDF| H3[PDF文本提取<br/>extract_all_text_blocks]
			
 
				     
			
 
				-    H --> I[Span 去重<br/>IoU过滤]
			
 
				+    H3 --> H4{页面类型检测}
			
 
				+    H4 -->|文字页| H5[使用PDF提取结果]
			
 
				+    H4 -->|扫描页| H2
			
 
				+    H3 -->|提取失败| H2
			
 
				+    
			
 
				+    H2 --> I[Span 去重<br/>IoU过滤]
			
 
				+    H5 --> I
			
 
				     I --> J[Span 排序<br/>从上到下、从左到右]
			
 
				     J --> K[Span-Block 匹配<br/>overlap_threshold=0.5]
			
 
				     
			
@@ -115,7 +152,8 @@ graph TB
 
				     S --> T[按阅读顺序排序]
			
 
				     T --> U[坐标转换回原图]
			
 
				     
			
 
				-    style H fill:#e1f5ff
			
 
				+    style H2 fill:#e1f5ff
			
 
				+    style H3 fill:#e1f5ff
			
 
				     style K fill:#e1f5ff
			
 
				     style L fill:#fff4e1
			
 
				     style L1 fill:#fff4e1
			
@@ -126,37 +164,68 @@ graph TB
 
				     style L6 fill:#fff4e1
			
 
				 ```
			
 
				 
			
 
				-### 关键改进：整页 OCR + Span 匹配
			
 
				+### 关键改进：整页 OCR/PDF提取 + Span 匹配
			
 
				+
			
 
				+参考 MinerU 的处理方式，新流程采用 **整页文本提取 → Span-Block 匹配** 策略：
			
 
				+
			
 
				+**处理路径**：
			
 
				 
			
 
				-参考 MinerU 的处理方式，新流程采用 **整页 OCR → Span-Block 匹配** 策略：
			
 
				+1. **扫描件/图片**：
			
 
				+   - **整页 OCR**：先对整个页面进行 OCR，获取所有 text spans（包含坐标和文本）
			
 
				+   - 获取所有 OCR spans
			
 
				 
			
 
				-1. **整页 OCR**：先对整个页面进行 OCR，获取所有 text spans（包含坐标和文本）
			
 
				-2. **Span 去重**：移除高 IoU 重叠的 spans，保留置信度高的
			
 
				-3. **Span 排序**：按坐标排序（从上到下，从左到右），方便人工检查缺失字符
			
 
				-4. **Span-Block 匹配**：将 OCR spans 按重叠比例（默认0.5）匹配到对应的 layout blocks
			
 
				-5. **文本合并**：将匹配到同一 block 的 spans 按阅读顺序合并
			
 
				+2. **文字PDF**：
			
 
				+   - **PDF文本提取**：从PDF直接提取文本块（`extract_all_text_blocks`）
			
 
				+   - **页面类型检测**：检测该页是否为扫描页（`detect_page_type`）
			
 
				+     - 如果是文字页：使用PDF提取结果
			
 
				+     - 如果是扫描页：fallback到OCR
			
 
				+   - **提取失败时**：自动fallback到OCR
			
 
				+
			
 
				+**后续处理（统一）**：
			
 
				+
			
 
				+3. **Span 去重**：移除高 IoU 重叠的 spans，保留置信度高的
			
 
				+4. **Span 排序**：按坐标排序（从上到下，从左到右），方便人工检查缺失字符
			
 
				+5. **Span-Block 匹配**：将 spans 按重叠比例（默认0.5）匹配到对应的 layout blocks
			
 
				+6. **文本合并**：将匹配到同一 block 的 spans 按阅读顺序合并
			
 
				 
			
 
				 **优势**：
			
 
				 - ✅ 避免裁剪小图 OCR 失败的问题
			
 
				 - ✅ OCR 可以利用更多上下文信息
			
 
				 - ✅ 坐标更精确（整页坐标系）
			
 
				 - ✅ 减少重复 OCR 调用，提高效率
			
 
				+- ✅ **文字PDF优先使用PDF文本提取**，准确率更高，速度更快
			
 
				+- ✅ **自动fallback机制**：PDF提取失败或检测到扫描页时自动使用OCR
			
 
				 - ✅ 与 MinerU 处理方式一致
			
 
				 
			
 
				 **代码实现**：
			
 
				 ```python
			
 
				-# 1. 整页 OCR
			
 
				-all_ocr_spans = self.ocr_recognizer.recognize_text(detection_image)
			
 
				+# 1. 根据PDF类型选择文本提取方式
			
 
				+if pdf_type == 'txt' and pdf_doc is not None:
			
 
				+    # 文字PDF：从PDF提取文本块
			
 
				+    actual_page_type = PDFUtils.detect_page_type(pdf_doc, page_idx)
			
 
				+    if actual_page_type == 'txt':
			
 
				+        all_text_spans, rotation = PDFUtils.extract_all_text_blocks(
			
 
				+            pdf_doc, page_idx, scale=scale, return_upright_coords=True
			
 
				+        )
			
 
				+        all_text_spans = self._convert_pdf_blocks_to_spans(
			
 
				+            all_text_spans, detection_image.shape
			
 
				+        )
			
 
				+    else:
			
 
				+        # 扫描页，使用OCR
			
 
				+        all_text_spans = self.ocr_recognizer.recognize_text(detection_image)
			
 
				+else:
			
 
				+    # 扫描件：整页 OCR
			
 
				+    all_text_spans = self.ocr_recognizer.recognize_text(detection_image)
			
 
				 
			
 
				 # 2. 去除重复 spans
			
 
				-all_ocr_spans = SpanMatcher.remove_duplicate_spans(all_ocr_spans)
			
 
				+all_text_spans = SpanMatcher.remove_duplicate_spans(all_text_spans)
			
 
				 
			
 
				 # 3. 按坐标排序
			
 
				-all_ocr_spans = self._sort_spans_by_position(all_ocr_spans)
			
 
				+all_text_spans = self._sort_spans_by_position(all_text_spans)
			
 
				 
			
 
				-# 4. 将 OCR spans 匹配到 layout blocks
			
 
				+# 4. 将 spans 匹配到 layout blocks
			
 
				 matched_spans = SpanMatcher.match_spans_to_blocks(
			
 
				-    all_ocr_spans, layout_results, overlap_threshold=0.5
			
 
				+    all_text_spans, layout_results, overlap_threshold=0.5
			
 
				 )
			
 
				 
			
 
				 # 5. 在元素处理时使用预匹配的 spans
			
@@ -172,6 +241,8 @@ element = self.element_processors.process_text_element(
 
				 
			
 
				 表格处理支持两种路径：**有线表格（UNET）** 和 **无线表格（VLM）**
			
 
				 
			
 
				+**新增功能**：支持自动表格分类，根据表格类型自动选择识别器
			
 
				+
			
 
				 ```mermaid
			
 
				 graph TB
			
 
				     A[表格区域] --> B[表格 OCR 预处理]
			
@@ -186,23 +257,31 @@ graph TB
 
				         B5 --> B6
			
 
				     end
			
 
				     
			
 
				-    B6 --> C{使用有线表格?}
			
 
				+    B6 --> C{启用表格分类?}
			
 
				+    
			
 
				+    C -->|是| C1[表格分类器<br/>PaddleTableClsModel]
			
 
				+    C1 --> C2{分类结果?}
			
 
				+    C2 -->|wired| D[UNet 有线表格路径]
			
 
				+    C2 -->|wireless| E[VLM 无线表格路径]
			
 
				     
			
 
				-    C -->|是| D[UNet 有线表格路径]
			
 
				-    C -->|否| E[VLM 无线表格路径]
			
 
				+    C -->|否| C3{手动配置?}
			
 
				+    C3 -->|use_wired_unet=true| D
			
 
				+    C3 -->|否| E
			
 
				     
			
 
				     subgraph 有线表格路径
			
 
				         D --> D1[UNet 检测表格线<br/>横线 + 竖线]
			
 
				         D1 --> D2{启用倾斜矫正?}
			
 
				-        D2 -->|是| D3[Hough变换检测角度<br/>矫正图片和OCR坐标]
			
 
				+        D2 -->|是| D3[基于Mask检测倾斜角度<br/>Hough变换 + 矫正图片和OCR坐标]
			
 
				         D2 -->|否| D4
			
 
				         D3 --> D4[网格恢复<br/>grid_recovery.py]
			
 
				-        D4 --> D5[边缘过滤<br/>edge_margin=padding×upscale×1.2]
			
 
				+        D4 --> D4a[连通域提取单元格<br/>OCR边缘补偿]
			
 
				+        D4a --> D5[边缘过滤<br/>edge_margin=padding×upscale×1.2]
			
 
				         D5 --> D6[文本填充<br/>text_filling.py]
			
 
				-        D6 --> D7[生成HTML<br/>data-bbox属性]
			
 
				-        D7 --> D8{识别成功?}
			
 
				-        D8 -->|否| E[自动Fallback到VLM]
			
 
				-        D8 -->|是| F
			
 
				+        D6 --> D7[二次OCR修正<br/>单元格裁剪OCR]
			
 
				+        D7 --> D8[生成HTML<br/>data-bbox属性]
			
 
				+        D8 --> D9{识别成功?}
			
 
				+        D9 -->|否| E[自动Fallback到VLM]
			
 
				+        D9 -->|是| F
			
 
				     end
			
 
				     
			
 
				     subgraph 无线表格路径
			
@@ -221,6 +300,26 @@ graph TB
 
				     style E1 fill:#fff4e1
			
 
				 ```
			
 
				 
			
 
				+#### 表格分类（可选）
			
 
				+
			
 
				+**配置项**：`table_classification.enabled: true`
			
 
				+
			
 
				+启用后，系统会自动对每个表格进行分类，判断是有线表格还是无线表格：
			
 
				+
			
 
				+1. **分类模型**：使用 MinerU 的 `PaddleTableClsModel`
			
 
				+2. **分类结果**：
			
 
				+   - `wired`：有线表格（带边框）→ 使用 UNet 识别
			
 
				+   - `wireless`：无线表格（无边框）→ 使用 VLM 识别
			
 
				+3. **辅助判断**：使用线条检测辅助判断
			
 
				+   - 只有横线或只有竖线 → 强制判断为无线表格
			
 
				+   - 无线条 → 判断为无线表格
			
 
				+4. **置信度阈值**：`confidence_threshold: 0.5`（可配置）
			
 
				+
			
 
				+**优势**：
			
 
				+- ✅ 自动选择最优识别器，无需手动配置
			
 
				+- ✅ 提高识别准确率（有线表格用UNet，无线表格用VLM）
			
 
				+- ✅ 支持混合场景（同一文档中同时存在有线/无线表格）
			
 
				+
			
 
				 #### 表格OCR预处理（共享逻辑）
			
 
				 
			
 
				 无论使用哪种表格识别方法，都需要先进行OCR预处理：
			
@@ -228,7 +327,7 @@ graph TB
 
				 1. **裁剪表格区域**：添加 `padding=10px` 保护边缘内容
			
 
				 2. **表格方向检测**：使用 PP-LCNet 检测并矫正表格方向
			
 
				 3. **收集OCR框**：
			
 
				-   - **优先**：使用整页OCR结果中与表格区域重叠的spans
			
 
				+   - **优先**：使用整页OCR结果中与表格区域重叠的spans（仅当表格未旋转时）
			
 
				    - **兜底**：对裁剪后的表格区域单独OCR
			
 
				 4. **坐标转换**：将坐标从原图转换到裁剪后的表格图像坐标系
			
 
				 
			
@@ -236,6 +335,7 @@ graph TB
 
				 - padding=10px 在原图坐标系中
			
 
				 - 表格图像的 (0,0) 对应原图的 (bbox[0]-padding, bbox[1]-padding)
			
 
				 - UNet处理时会放大 upscale_ratio≈3.333 倍
			
 
				+- **文字PDF支持**：对于文字PDF（`pdf_type='txt'`），会传递 `pdf_type` 参数，支持PDF字符提取作为OCR补充
			
 
				 
			
 
				 #### 有线表格识别流程（UNET）
			
 
				 
			
@@ -248,13 +348,15 @@ graph TB
 
				    - 坐标在放大后的图像坐标系（upscale≈3.333倍）
			
 
				 
			
 
				 2. **倾斜检测与矫正**（可选，`enable_deskew: true`）：
			
 
				-   - 使用 Hough 变换检测表格线倾斜角度
			
 
				+   - **基于Mask的倾斜检测**：使用UNet检测的横线mask进行Hough变换，检测倾斜角度
			
 
				    - 坐标系：Y轴向下，逆时针旋转为正角度
			
 
				    - 矫正逻辑：`correction_angle = -detected_angle`（反向旋转）
			
 
				    - 同步更新表格图像和OCR框坐标
			
 
				+   - 矫正后重新运行UNet，确保mask与矫正后的图像对齐
			
 
				 
			
 
				 3. **网格恢复**（`grid_recovery.py`）：
			
 
				-   - 提取唯一的行线和列线坐标
			
 
				+   - **连通域提取**：使用连通域法提取单元格（替代投影法）
			
 
				+   - **OCR边缘补偿**：使用OCR框信息补偿边缘单元格，提高边缘单元格识别准确率
			
 
				    - **边缘过滤**：过滤padding区域的噪声线条
			
 
				      ```python
			
 
				      edge_margin = int(crop_padding × upscale × 1.2)  # 例如：10 × 3.333 × 1.2 = 40px
			
@@ -263,30 +365,50 @@ graph TB
 
				    - 生成单元格网格
			
 
				 
			
 
				 4. **文本填充**（`text_filling.py`）：
			
 
				-   - 计算OCR框与单元格的IoU
			
 
				+   - 计算OCR框与单元格的中心点匹配
			
 
				    - 匹配OCR文本到对应单元格
			
 
				    - 支持置信度过滤（`ocr_conf_threshold`）
			
 
				 
			
 
				-5. **HTML生成**：
			
 
				+5. **二次OCR修正**（`text_filling.py`）：
			
 
				+   - **总是执行**，不区分PDF类型
			
 
				+   - 对单元格进行裁剪OCR，补充或修正文本
			
 
				+   - 处理空文本单元格、低置信度文本、OCR误合并等情况
			
 
				+   - 对于文字PDF（`pdf_type='txt'`），空文本单元格不触发二次OCR，为了解决文字PDF中误合并问题
			
 
				+
			
 
				+6. **HTML生成**：
			
 
				    - 生成标准表格HTML
			
 
				    - 添加 `data-bbox` 属性记录单元格坐标
			
 
				 
			
 
				-6. **坐标逆转换**：
			
 
				+7. **坐标逆转换**：
			
 
				    - 将所有坐标从裁剪+放大坐标系转换回原图坐标系
			
 
				+   - 如果进行了倾斜矫正，需要逆向旋转坐标
			
 
				 
			
 
				-7. **自动Fallback**：
			
 
				-   - 如果有线识别失败（返回空HTML），自动切换到VLM识别
			
 
				+8. **自动Fallback**：
			
 
				+   - 如果有线识别失败（返回空HTML或空cells），自动切换到VLM识别
			
 
				    - 无需手动干预，确保识别鲁棒性
			
 
				 
			
 
				+**文字PDF支持**：
			
 
				+- 支持传递 `pdf_type='txt'` 参数到有线表格识别器
			
 
				+- 二次OCR修正，处理空文本单元格、低置信度文本、OCR误合并等情况
			
 
				+- 对于文字PDF（`pdf_type='txt'`），空文本单元格不触发二次OCR，为了解决文字PDF中误合并问题
			
 
				+
			
 
				 **关键配置**：
			
 
				 ```yaml
			
 
				+# 表格分类配置（推荐启用）
			
 
				+table_classification:
			
 
				+  enabled: true                 # 启用自动表格分类
			
 
				+  module: "paddle"              # 使用 PaddleTableClsModel
			
 
				+  confidence_threshold: 0.5     # 分类置信度阈值
			
 
				+
			
 
				+# 有线表格识别配置
			
 
				 table_recognition_wired:
			
 
				   use_wired_unet: true          # 启用有线表格
			
 
				   upscale_ratio: 3.333          # 固定放大比例
			
 
				-  enable_deskew: true           # 启用倾斜矫正
			
 
				+  enable_deskew: true           # 启用倾斜矫正（基于Mask检测）
			
 
				   row_threshold: 10             # 行合并阈值（像素）
			
 
				   col_threshold: 15             # 列合并阈值（像素）
			
 
				   ocr_conf_threshold: 0.8       # OCR置信度阈值
			
 
				+  use_custom_postprocess: true  # 使用自定义后处理（支持OCR边缘补偿）
			
 
				 ```
			
 
				 
			
 
				 #### 无线表格识别流程（VLM）
			
@@ -439,10 +561,15 @@ def process_text_element(
 
				 
			
 
				 | 处理阶段 | 方向识别 | 建议 |
			
 
				 |---------|---------|------|
			
 
				-| **页面级** | PP-LCNet | 可配置，扫描件开启，数字PDF关闭 |
			
 
				+| **页面级** | 扫描件：PP-LCNet<br/>文字PDF：PDF rotation | 扫描件使用PP-LCNet模型识别<br/>文字PDF从PDF元数据获取rotation并旋转图像 |
			
 
				 | **表格区域** | - | 可选，VLM 有一定容忍度，OCR 自带角度校正 |
			
 
				 | **文本区域** | - | 不需要，OCR 自带校正 |
			
 
				 
			
 
				+**文字PDF方向处理**：
			
 
				+- 从PDF页面元数据获取 `rotation` 角度
			
 
				+- 转换为统一的 `rotate_angle` 定义（图像需要逆时针旋转的角度）
			
 
				+- 旋转图像为正视方向，确保后续Layout检测和文本提取的准确性
			
 
				+
			
 
				 ---
			
 
				 
			
 
				 ## Layout 后处理
			
@@ -473,15 +600,21 @@ layout:
 
				 
			
 
				 | PDF 类型 | 文字块处理 | 表格处理 |
			
 
				 |---------|-----------|---------|
			
 
				-| **扫描件/图片** | 整页 OCR → Span 匹配 | OCR 检测（坐标） + VLM（结构） |
			
 
				-| **数字原生 PDF** | 整页 OCR → Span 匹配 / PDF 字符提取 | OCR 检测（坐标） + VLM（结构） |
			
 
				+| **扫描件/图片** | 整页 OCR → Span 匹配 | OCR 检测（坐标） + 表格分类 → UNet/VLM（结构） |
			
 
				+| **数字原生 PDF（文字PDF）** | 整页 OCR → Span 匹配 / PDF 字符提取 | OCR 检测（坐标） + 表格分类 → UNet/VLM（结构）<br/>+ 单元格OCR修正（PDF字符提取优先） |
			
 
				 
			
 
				 **关键点**：
			
 
				 - **整页 OCR 优先**：先对整页进行 OCR，再将结果匹配到 layout blocks
			
 
				 - 数字原生 PDF 在 spans 匹配失败时，会尝试 PDF 字符提取
			
 
				 - **表格处理无论 PDF 类型都需要 OCR 检测**，用于获取单元格内文本的精确坐标
			
 
				-- VLM 只返回表格结构（HTML），不返回单元格坐标，需要与 OCR 检测结果匹配
			
 
				-- 当前实现仅使用 VLM（MinerU VLM 或 PaddleOCR-VL）进行表格结构识别
			
 
				+- **表格分类**：支持自动分类（有线/无线），自动选择最优识别器
			
 
				+- **有线表格（UNet）**：
			
 
				+  - 支持文字PDF，在二次OCR修正时优先使用PDF字符提取
			
 
				+  - 支持OCR边缘补偿，提高边缘单元格识别准确率
			
 
				+  - 识别失败时自动fallback到VLM
			
 
				+- **无线表格（VLM）**：
			
 
				+  - VLM 只返回表格结构（HTML），不返回单元格坐标
			
 
				+  - 需要与 OCR 检测结果匹配（TableCellMatcher）
			
 
				 
			
 
				 ### OCR 参数配置
			
 
				 
			
@@ -538,6 +671,9 @@ ocr:
 
				 
			
 
				 ```
			
 
				 universal_doc_parser/
			
 
				+├── __init__.py
			
 
				+├── main_v2.py # 命令行入口 ⭐
			
 
				+│
			
 
				 ├── config/ # 配置文件
			
 
				 │ ├── bank_statement_yusys_v2.yaml # 银行流水配置（Docling + PaddleOCR-VL）
			
 
				 │ ├── bank_statement_mineru_v2.yaml # 银行流水配置（MinerU layout + MinerU VLM）
			
@@ -557,15 +693,17 @@ universal_doc_parser/
 
				 │
			
 
				 ├── models/ # 模型适配器
			
 
				 │ └── adapters/
			
 
				+│   ├── __init__.py
			
 
				 │   ├── base.py # 适配器基类
			
 
				 │   ├── mineru_adapter.py # MinerU 适配器
			
 
				 │   ├── paddle_vl_adapter.py # PaddleOCR-VL 适配器
			
 
				 │   ├── paddle_layout_detector.py # PaddleX RT-DETR 布局检测器
			
 
				+│   ├── paddle_table_classifier.py # Paddle表格分类器 ⭐ 新增
			
 
				 │   ├── docling_layout_adapter.py # Docling 布局检测器 ⭐
			
 
				 │   ├── dit_layout_adapter.py # DiT 布局检测器 ⭐ 新增
			
 
				 │   ├── mineru_wired_table.py # MinerU 有线表格识别器 ⭐ 新增
			
 
				 │   └── wired_table/ # 有线表格子模块 ⭐ 新增
			
 
				-│     ├── init.py
			
 
				+│     ├── __init__.py
			
 
				 │     ├── debug_utils.py # 调试工具
			
 
				 │     ├── ocr_formatter.py # OCR 格式转换
			
 
				 │     ├── skew_detection.py # 倾斜检测与矫正
			
@@ -573,16 +711,31 @@ universal_doc_parser/
 
				 │     ├── text_filling.py # 文本填充
			
 
				 │     ├── html_generator.py # HTML 生成
			
 
				 │     └── visualization.py # 可视化
			
 
				-│  
			
 
				+│
			
 
				+├── dit_support/ # DiT 布局检测器支持模块 ⭐
			
 
				+│ ├── configs/ # DiT 配置文件
			
 
				+│ │ ├── Base-RCNN-FPN.yaml
			
 
				+│ │ └── cascade/
			
 
				+│ │   └── cascade_dit_large.yaml
			
 
				+│ ├── ditod/ # DiT 模型实现
			
 
				+│ │ ├── __init__.py
			
 
				+│ │ ├── backbone.py
			
 
				+│ │ ├── beit.py
			
 
				+│ │ ├── config.py
			
 
				+│ │ └── deit.py
			
 
				+│ └── README.md
			
 
				+│
			
 
				 ├── utils/ # 输出工具模块（已迁移到 ocr_utils）⚠️
			
 
				-│ └── init.py # 仅作重新导出接口
			
 
				-│  
			
 
				-├── tests/ # 测试模块
			
 
				-│ ├── test_skew_correction.py # 倾斜矫正测试
			
 
				-│ └── ...
			
 
				-│  
			
 
				-├── main_v2.py # 命令行入口 ⭐
			
 
				-└── 模型统一框架.md # 本文档
			
 
				+│ └── __init__.py # 仅作重新导出接口
			
 
				+│
			
 
				+└── tests/ # 测试模块
			
 
				+  ├── test_dit_layout_adapter.py # DiT 布局检测器测试
			
 
				+  ├── test_doclayoutyolo.py # DocLayout-YOLO 测试
			
 
				+  ├── test_layout_detector.py # 布局检测器测试
			
 
				+  ├── test_pdf_rotation.py # PDF 旋转测试
			
 
				+  ├── test_skew_correction.py # 倾斜矫正测试
			
 
				+  ├── test_table_routing.py # 表格路由测试
			
 
				+  └── *.png # 测试图片文件
			
 
				 ```
			
 
				 
			
 
				 ---
			
@@ -609,7 +762,7 @@ python main_v2.py -i doc.pdf -c config/bank_statement_yusys_v2.yaml -o ./my_outp
 
				 
			
 
				 ```python
			
 
				 from core.pipeline_manager_v2 import EnhancedDocPipeline
			
 
				-from utils import OutputFormatterV2
			
 
				+from ocr_utils import OutputFormatterV2  # 从 ocr_utils 导入
			
 
				 
			
 
				 # 初始化流水线
			
 
				 with EnhancedDocPipeline("config/bank_statement_yusys_v2.yaml") as pipeline:
			
@@ -650,31 +803,51 @@ python main_v2.py -i large_document.pdf -c config.yaml --streaming -o ./output
 
				 
			
 
				 ---
			
 
				 
			
 
				-## 输出文件说明
			
 
				-
			
 
				-| 输出文件 | 说明 |
			
 
				-|---------|------|
			
 
				-| `{doc}_middle.json` | MinerU 标准格式 JSON |
			
 
				-| `{doc}_enhanced.json` | 增强版 JSON（包含更多元数据）⭐ 新增 |
			
 
				-| `{doc}_page_001.json` | 每页独立 JSON（包含单元格坐标） |
			
 
				-| `{doc}_pdf_page_001.png` | PDF转换的页面图片 ⭐ 新增 |
			
 
				-| `{doc}.md` | 完整文档 Markdown |
			
 
				-| `{doc}_page_001.md` | 每页独立 Markdown（带坐标注释） |
			
 
				-| `tables/*.html` | 表格 HTML 文件（带 data-bbox 坐标） |
			
 
				-| `images/` | 提取的图片元素 |
			
 
				-| `{doc}_page_001_layout.png` | Layout 可视化图片（debug 模式） |
			
 
				-| `{doc}_page_001_ocr.png` | OCR 可视化图片（debug 模式） |
			
 
				-| `{doc}_page_001_table_001_lines.png` | 有线表格线可视化 ⭐ 新增（wired debug） |
			
 
				-| `{doc}_page_001_table_001_grid.png` | 有线表格网格结构 ⭐ 新增（wired debug） |
			
 
				-| `{doc}_page_001_table_001_text.png` | 有线表格文本覆盖 ⭐ 新增（wired debug） |
			
 
				-| `{doc}_page_001_table_001_components.png` | 有线表格连通域 ⭐ 新增（wired debug） |
			
 
				-| `*_original.*` | 标准化前的原始文件（如有修改） |
			
 
				+## 输出格式说明（统一描述格式）
			
 
				+
			
 
				+**核心原则**：无论使用何种模型组合，输出格式统一，确保下游处理的一致性。
			
 
				+
			
 
				+### 主要输出文件
			
 
				+
			
 
				+| 输出文件 | 格式说明 | 用途 |
			
 
				+|---------|---------|------|
			
 
				+| `{doc}_middle.json` | **MinerU 标准格式**（统一内部描述结构） | 标准输出，兼容 MinerU 生态 |
			
 
				+| `{doc}_enhanced.json` | 增强版 JSON（包含更多元数据）⭐ | 包含识别方法、置信度等详细信息 |
			
 
				+| `{doc}_page_001.json` | 每页独立 JSON（包含单元格坐标） | 按页输出，包含精确坐标信息 |
			
 
				+| `{doc}.md` | 完整文档 Markdown | 人类可读格式 |
			
 
				+| `{doc}_page_001.md` | 每页独立 Markdown（带坐标注释） | 按页 Markdown，便于检查 |
			
 
				+| `tables/*.html` | 表格 HTML（带 `data-bbox` 坐标） | 表格结构化输出，包含单元格坐标 |
			
 
				+| `images/` | 提取的图片元素 | 图片资源 |
			
 
				+
			
 
				+### 统一格式特点
			
 
				+
			
 
				+1. **坐标统一**：所有坐标统一转换回**原图坐标系**，确保一致性
			
 
				+2. **结构统一**：无论使用何种识别方法，输出结构统一
			
 
				+3. **元数据完整**：包含识别方法、置信度、处理时间等元数据
			
 
				+4. **多格式支持**：同时输出 JSON、Markdown、HTML 等多种格式
			
 
				+
			
 
				+### 调试输出文件（可选）
			
 
				+
			
 
				+| 输出文件 | 说明 | 启用条件 |
			
 
				+|---------|------|---------|
			
 
				+| `{doc}_pdf_page_001.png` | PDF转换的页面图片 | `output.save_pdf_images: true` |
			
 
				+| `{doc}_page_001_layout.png` | Layout 可视化图片 | `output.save_layout_image: true` |
			
 
				+| `{doc}_page_001_ocr.png` | OCR 可视化图片 | `output.save_ocr_image: true` |
			
 
				+| `{doc}_page_001_table_001_lines.png` | 有线表格线可视化 | `table_recognition_wired.debug_options.enabled: true` |
			
 
				+| `{doc}_page_001_table_001_grid.png` | 有线表格网格结构 | `table_recognition_wired.debug_options.enabled: true` |
			
 
				+| `{doc}_page_001_table_001_text.png` | 有线表格文本覆盖 | `table_recognition_wired.debug_options.enabled: true` |
			
 
				+| `{doc}_page_001_table_001_components.png` | 有线表格连通域 | `table_recognition_wired.debug_options.enabled: true` |
			
 
				+| `{doc}_page_001_table_001_paddle_table_lines.png` | 表格分类线条检测可视化 | `table_classification.debug_options.enabled: true` |
			
 
				 
			
 
				 **有线表格调试输出说明**：
			
 
				 - 当配置 `table_recognition_wired.debug_options.enabled: true` 时，会生成详细的可视化图片
			
 
				 - 这些图片帮助理解表格识别的各个处理阶段（表格线提取、网格恢复、文本填充等）
			
 
				 - 详细说明请参考：[有线表格识别技术文档.md](有线表格识别技术文档.md)
			
 
				 
			
 
				+**表格分类调试输出说明**：
			
 
				+- 当配置 `table_classification.debug_options.enabled: true` 时，会生成表格线检测可视化图片
			
 
				+- 用于理解分类器如何判断表格类型（有线/无线）
			
 
				+
			
 
				 ---
			
 
				 
			
 
				 ## 配置说明
			
@@ -717,6 +890,31 @@ ocr_recognition:
 
				   module: "mineru"
			
 
				   language: "ch"
			
 
				 
			
 
				+# 表格分类配置（自动区分有线/无线表格）
			
 
				+table_classification:
			
 
				+  enabled: true               # 是否启用自动表格分类（默认关闭，使用手动配置）
			
 
				+  module: "paddle"            # 分类模型：paddle（MinerU PaddleTableClsModel）
			
 
				+  confidence_threshold: 0.5   # 分类置信度阈值
			
 
				+  batch_size: 16              # 批处理大小
			
 
				+  debug_options:
			
 
				+    enabled: false            # 是否开启调试可视化输出
			
 
				+    save_table_lines: true    # 保存表格线可视化
			
 
				+
			
 
				+# 有线表格识别配置
			
 
				+table_recognition_wired:
			
 
				+  use_wired_unet: true        # 是否启用有线表格识别
			
 
				+  upscale_ratio: 3.333        # 放大比例
			
 
				+  enable_deskew: true         # 是否启用倾斜矫正
			
 
				+  row_threshold: 10           # 行合并阈值（像素）
			
 
				+  col_threshold: 15           # 列合并阈值（像素）
			
 
				+  ocr_conf_threshold: 0.8     # OCR置信度阈值
			
 
				+  debug_options:
			
 
				+    enabled: false            # 是否开启调试可视化输出
			
 
				+    save_table_lines: true    # 保存表格线可视化
			
 
				+    save_connected_components: true  # 保存连通域提取的单元格图
			
 
				+    save_grid_structure: true  # 保存逻辑网格结构
			
 
				+    save_text_overlay: true   # 保存文本填充覆盖图
			
 
				+
			
 
				 # 输出配置
			
 
				 output:
			
 
				   create_subdir: false        # 是否创建子目录
			
@@ -730,9 +928,15 @@ output:
 
				 
			
 
				 ---
			
 
				 
			
 
				-## 支持的布局检测器
			
 
				+## 可替换组件说明
			
 
				+
			
 
				+框架采用**适配器模式**，各组件可根据场景灵活替换。通过修改配置文件即可切换，无需修改代码。
			
 
				+
			
 
				+### 布局检测器（Layout Detection）
			
 
				 
			
 
				-### 1. Docling Layout (推荐)
			
 
				+支持多种布局检测模型，通过 `layout_detection.module` 配置切换：
			
 
				+
			
 
				+#### 1. Docling Layout (推荐)
			
 
				 
			
 
				 基于 HuggingFace transformers 的 RT-DETR 模型。
			
 
				 
			
@@ -749,7 +953,7 @@ layout_detection:
 
				 - `ds4sd/docling-layout-egret-medium`
			
 
				 - `ds4sd/docling-layout-egret-large`
			
 
				 
			
 
				-### 2. PaddleX RT-DETR (ONNX)
			
 
				+#### 2. PaddleX RT-DETR (ONNX)
			
 
				 
			
 
				 基于 ONNX Runtime 的 PaddleX 布局检测器。
			
 
				 
			
@@ -760,7 +964,7 @@ layout_detection:
 
				   model_dir: "/path/to/RT-DETR-H_layout_17cls.onnx"
			
 
				 ```
			
 
				 
			
 
				-### 3. MinerU DocLayout-YOLO
			
 
				+#### 3. MinerU DocLayout-YOLO
			
 
				 
			
 
				 MinerU 内置的布局检测模型。
			
 
				 
			
@@ -770,7 +974,7 @@ layout_detection:
 
				   model_name: "layout"
			
 
				 ```
			
 
				 
			
 
				-### 4. DiT Layout (Document Image Transformer)
			
 
				+#### 4. DiT Layout (Document Image Transformer)
			
 
				 
			
 
				 基于 Detectron2 的 DiT 模型，在 PubLayNet 数据集上训练。
			
 
				 
			
@@ -782,18 +986,67 @@ layout_detection:
 
				   device: "cpu"
			
 
				   conf: 0.3
			
 
				 ```
			
 
				-支持类别：
			
 
				 
			
 
				-text：正文文本
			
 
				-title：标题
			
 
				-list：列表
			
 
				-table：表格
			
 
				-figure：图片/图表
			
 
				-特点：
			
 
				+**支持类别**：text、title、list、table、figure
			
 
				 
			
 
				-基于 Vision Transformer 架构
			
 
				-适合学术文档和出版物
			
 
				-需要 Detectron2 框架支持
			
 
				+**特点**：基于 Vision Transformer 架构，适合学术文档和出版物
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### OCR识别器（OCR Recognition）
			
 
				+
			
 
				+通过 `ocr_recognition.module` 配置切换：
			
 
				+
			
 
				+- **MinerU OCR**：`module: "mineru"`
			
 
				+- **PaddleOCR**：`module: "paddle"`（需配置模型路径）
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### 表格识别器（Table Recognition）
			
 
				+
			
 
				+#### 表格分类器（可选）
			
 
				+
			
 
				+通过 `table_classification.module` 配置：
			
 
				+
			
 
				+- **PaddleTableClsModel**：`module: "paddle"`（自动区分有线/无线表格）
			
 
				+
			
 
				+#### 有线表格识别
			
 
				+
			
 
				+通过 `table_recognition_wired.use_wired_unet` 配置：
			
 
				+
			
 
				+- **UNet 有线表格**：`use_wired_unet: true`（MinerU UNet模型）
			
 
				+
			
 
				+#### 无线表格识别
			
 
				+
			
 
				+通过 `vl_recognition.module` 配置：
			
 
				+
			
 
				+- **MinerU VLM**：`module: "mineru"`
			
 
				+- **PaddleOCR-VL**：`module: "paddle"`（需配置服务地址）
			
 
				+
			
 
				+**后端支持**：
			
 
				+- `backend: "http-client"`：HTTP 客户端
			
 
				+- `backend: "vllm-engine"`：vLLM 引擎
			
 
				+- `backend: "transformers"`：Transformers 库
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### 公式识别器（Equation Recognition）
			
 
				+
			
 
				+通过 `vl_recognition.module` 配置（与无线表格共享）：
			
 
				+
			
 
				+- **MinerU VLM**：`module: "mineru"`
			
 
				+- **PaddleOCR-VL**：`module: "paddle"`
			
 
				+
			
 
				+---
			
 
				+
			
 
				+### 方向识别器（Orientation Classification）
			
 
				+
			
 
				+- **扫描件**：PP-LCNet（`preprocessor.module: "mineru"`）
			
 
				+- **文字PDF**：自动从PDF元数据获取rotation（无需配置）
			
 
				+
			
 
				+---
			
 
				+
			
 
				+**配置示例**：见 `config/bank_statement_*.yaml` 文件
			
 
				 
			
 
				 ---
			
 
				 
			
@@ -821,7 +1074,8 @@ figure：图片/图表
 
				 - 页面方向识别
			
 
				 - Layout 检测与去重
			
 
				 - **整页 OCR + Span-Block 匹配** ⭐
			
 
				-- 元素分类处理
			
 
				+- **表格自动分类**（可选）⭐ 新增
			
 
				+- 元素分类处理（支持智能选择表格识别器）
			
 
				 - 阅读顺序排序
			
 
				 - 坐标转换
			
 
				 
			
@@ -837,15 +1091,33 @@ OCR Span 与 Layout Block 匹配器，参考 MinerU 实现：
 
				 
			
 
				 元素处理器，处理不同类型的元素：
			
 
				 - `process_text_element()` - 文本处理（支持 pre_matched_spans）
			
 
				-- `process_table_element()` - 表格处理（VLM + OCR 坐标匹配）
			
 
				+- `process_table_element_wired()` - 有线表格处理（UNet + OCR 坐标匹配，支持文字PDF）
			
 
				+- `process_table_element_vlm()` - 无线表格处理（VLM + OCR 坐标匹配）
			
 
				 - `process_image_element()` - 图片处理
			
 
				 - `process_equation_element()` - 公式处理
			
 
				 - `process_code_element()` - 代码处理
			
 
				 - `process_discard_element()` - 丢弃元素处理（支持 pre_matched_spans）
			
 
				 
			
 
				-### 3. OutputFormatterV2 (`output_formatter_v2.py`)
			
 
				+### 3.1. PaddleTableClassifier (`paddle_table_classifier.py`) ⭐ 新增
			
 
				 
			
 
				-统一输出格式化器：
			
 
				+表格分类器，自动区分有线表格和无线表格：
			
 
				+- `classify()` - 分类单个表格图像
			
 
				+- `batch_classify()` - 批量分类表格图像
			
 
				+- 使用 MinerU 的 `PaddleTableClsModel` 进行分类
			
 
				+- 支持线条检测辅助判断（只有横线或竖线时强制判断为无线表格）
			
 
				+
			
 
				+### 3.1. PaddleTableClassifier (`paddle_table_classifier.py`) ⭐ 新增
			
 
				+
			
 
				+表格分类器，自动区分有线表格和无线表格：
			
 
				+- `classify()` - 分类单个表格图像
			
 
				+- `batch_classify()` - 批量分类表格图像
			
 
				+- 使用 MinerU 的 `PaddleTableClsModel` 进行分类
			
 
				+- 支持线条检测辅助判断（只有横线或竖线时强制判断为无线表格）
			
 
				+- 输出分类结果：`wired`（有线表格）或 `wireless`（无线表格）
			
 
				+
			
 
				+### 4. OutputFormatterV2 (来自 `ocr_utils`)
			
 
				+
			
 
				+统一输出格式化器，位于 `ocr_utils` 包中：
			
 
				 - MinerU 标准 middle.json 格式
			
 
				 - 每页独立 JSON（含单元格坐标）
			
 
				 - Markdown 输出（完整版 + 按页）
			
@@ -853,7 +1125,12 @@ OCR Span 与 Layout Block 匹配器，参考 MinerU 实现：
 
				 - 可视化图片（Layout/OCR）
			
 
				 - 金额数字标准化
			
 
				 
			
 
				-### 4. TableCellMatcher (来自 `merger`)
			
 
				+**导入方式**：
			
 
				+```python
			
 
				+from ocr_utils import OutputFormatterV2
			
 
				+```
			
 
				+
			
 
				+### 5. TableCellMatcher (来自 `merger`)
			
 
				 
			
 
				 表格单元格坐标匹配器：
			
 
				 - 使用动态规划进行行内单元格匹配
			
@@ -871,7 +1148,7 @@ OCR Span 与 Layout Block 匹配器，参考 MinerU 实现：
 
				 - `mineru.model.ocr` - OCR 模型
			
 
				 - `mineru.model.ori_cls` - 方向分类模型
			
 
				 
			
 
				-### OCR Tools 组件（来自 ocr_tools.ocr_merger）⚠️
			
 
				+### OCR Tools 组件（来自 `ocr_tools.ocr_merger`）⚠️
			
 
				 
			
 
				 实际导入路径（**注意：不是 ocr_verify**）：
			
 
				 
			
@@ -883,29 +1160,61 @@ from ocr_tools.ocr_merger import TableCellMatcher, TextMatcher
 
				 ├── table_cell_matcher.py  # 单元格坐标匹配
			
 
				 ├── text_matcher.py        # 文本匹配
			
 
				 └── merger_core.py         # 核心匹配算法
			
 
				-````
			
 
				-功能说明：
			
 
				+```
			
 
				+
			
 
				+**功能说明**：
			
 
				+- `TableCellMatcher`：将 OCR 检测框与 VLM 表格结构匹配，使用动态规划算法
			
 
				+- `TextMatcher`：文本相似度匹配工具
			
 
				+
			
 
				+### OCR Utils 工具包（`ocr_utils`）⭐
			
 
				+
			
 
				+**定位**：统一的OCR工具包，提供文档处理相关的工具函数，支持跨项目复用。
			
 
				+
			
 
				+**主要模块**：
			
 
				 
			
 
				-TableCellMatcher：将 OCR 检测框与 VLM 表格结构匹配，使用动态规划算法
			
 
				-TextMatcher：文本相似度匹配工具
			
 
				+| 模块 | 功能 | 说明 |
			
 
				+|------|------|------|
			
 
				+| `OutputFormatterV2` | 统一输出格式化器 | 生成 JSON、Markdown、HTML 等格式 |
			
 
				+| `JSONFormatters` | JSON 格式化工具 | 格式化 MinerU 标准 JSON、增强 JSON 等 |
			
 
				+| `MarkdownGenerator` | Markdown 生成器 | 生成完整文档和按页 Markdown |
			
 
				+| `HTMLGenerator` | HTML 生成器 | 生成表格 HTML（带 data-bbox 坐标） |
			
 
				+| `VisualizationUtils` | 可视化工具 | Layout、OCR 可视化图片生成 |
			
 
				+| `normalize_financial_numbers` | 金额标准化 | 金融数字标准化（金额、百分比等） |
			
 
				+| `PDFUtils` | PDF 处理工具 | PDF 文本提取、坐标转换等 |
			
 
				+| `BBoxExtractor` | 边界框提取器 | 从 HTML 等格式提取边界框 |
			
 
				+| `file_utils` | 文件处理工具 | 文件列表处理、PDF 转图片等 |
			
 
				+| `image_utils` | 图像处理工具 | 图像解码、预处理、坐标转换等 |
			
 
				+| `html_utils` | HTML 处理工具 | HTML 表格解析、图片处理等 |
			
 
				+| `number_utils` | 数字解析工具 | 数字解析和标准化 |
			
 
				 
			
 
				-o工具模块（已迁移到 ocr_utils）⚠️
			
 
				-输出工具已统一迁移到 ocr_utils 包，
			
 
				+**导入示例**：
			
 
				 ```python
			
 
				-# 从 ocr_utils 重新导出
			
 
				+# 主要输出工具
			
 
				 from ocr_utils import (
			
 
				-    OutputFormatterV2,       # 统一输出格式化器
			
 
				-    JSONFormatters,          # JSON格式化
			
 
				-    MarkdownGenerator,       # Markdown生成
			
 
				-    HTMLGenerator,           # HTML生成
			
 
				-    VisualizationUtils,      # 可视化工具
			
 
				-    normalize_financial_numbers,  # 金额标准化
			
 
				+    OutputFormatterV2,           # 统一输出格式化器
			
 
				+    JSONFormatters,              # JSON格式化
			
 
				+    MarkdownGenerator,           # Markdown生成
			
 
				+    HTMLGenerator,               # HTML生成
			
 
				+    VisualizationUtils,          # 可视化工具
			
 
				+    normalize_financial_numbers, # 金额标准化
			
 
				+)
			
 
				+
			
 
				+# PDF 工具（延迟导入）
			
 
				+from ocr_utils import PDFUtils, BBoxExtractor
			
 
				+
			
 
				+# 文件工具
			
 
				+from ocr_utils import (
			
 
				+    get_input_files,
			
 
				+    convert_pdf_to_images,
			
 
				+    parse_page_range
			
 
				 )
			
 
				 ```
			
 
				-优势：
			
 
				-  . 统一管理所有输出工具
			
 
				-  . 跨项目复用代码
			
 
				-  . 更好的版本控制
			
 
				+
			
 
				+**优势**：
			
 
				+- ✅ **统一管理**：所有输出工具集中管理，避免代码重复
			
 
				+- ✅ **跨项目复用**：可在多个 OCR 相关项目中复用
			
 
				+- ✅ **版本控制**：独立版本管理，便于维护和升级
			
 
				+- ✅ **延迟导入**：PDF 相关工具支持延迟导入，避免依赖问题
			
 
				 
			
 
				 其他依赖
			
 
				   . transformers - Docling 模型加载