# `unclip_ratio` 参数说明 ## 📋 概述 `unclip_ratio` 是 OCR 文本检测中的一个重要参数，用于控制检测框的扩展比例。 ## 🎯 作用原理 ### 1. **Vatti Clipping 算法** `unclip_ratio` 使用 **Vatti Clipping 算法**对检测到的文字区域进行扩张（unclip）。 ### 2. **工作原理** ``` 原始检测框（可能过紧） ┌─────────┐ │ 文本 │ ← 检测模型输出的框可能太紧，裁剪了文字边缘 └─────────┘ 应用 unclip_ratio = 1.5 后 ┌───────────────┐ │ │ │ 文本 │ ← 扩展后的框，包含完整的文字区域 │ │ └───────────────┘ ``` ### 3. **数学公式** ```python # 计算扩展后的框尺寸 width = x2 - x1 height = y2 - y1 new_width = width * unclip_ratio new_height = height * unclip_ratio # 保持中心点不变，扩展框 center_x = x1 + width / 2 center_y = y1 + height / 2 new_x1 = center_x - new_width / 2 new_y1 = center_y - new_height / 2 new_x2 = center_x + new_width / 2 new_y2 = center_y + new_height / 2 ``` ## 📊 参数影响 ### 不同 `unclip_ratio` 值的效果 | unclip_ratio | 扩展程度 | 适用场景 | 优缺点 | |-------------|---------|---------|--------| | **1.0** | 不扩展 | 检测框已经很精确 | ✅ 精确度高
❌ 可能裁剪文字边缘 | | **1.3** | 轻微扩展 | 高质量扫描件 | ✅ 精确度较高
✅ 包含完整文字 | | **1.5** | 中等扩展 | **推荐值**（PPStructureV3默认） | ✅ 平衡精确度和完整性
✅ 适合大多数场景 | | **1.8** | 较大扩展 | MinerU默认，质量较差的扫描件 | ✅ 确保包含完整文字
❌ 可能包含过多背景 | | **2.0+** | 大幅扩展 | 极低质量图像 | ✅ 最大程度包含文字
❌ 精确度低，可能包含相邻文字 | ## 🔍 实际效果对比 ### 示例1：正常文本 ``` 原始检测框（unclip_ratio=1.0） ┌────────┐ │ 货币资金 │ ← 可能裁剪了"货"字的左边 └────────┘ unclip_ratio=1.5（推荐） ┌───────────┐ │ 货币资金 │ ← 包含完整文字 └───────────┘ unclip_ratio=1.8（过大） ┌─────────────┐ │ 货币资金 │ ← 包含过多空白，可能影响识别 └─────────────┘ ``` ### 示例2：密集文本（表格） ``` unclip_ratio=1.5（推荐） ┌─────┐ ┌─────┐ │ 资产 │ │ 负债 │ ← 框精确，不重叠 └─────┘ └─────┘ unclip_ratio=1.8（过大） ┌──────┐┌──────┐ │ 资产 ││ 负债 │ ← 框重叠，可能合并相邻单元格 └──────┘└──────┘ ``` ## ⚙️ 参数调优建议 ### 1. **根据文档质量调整** ```yaml # 高质量扫描件（清晰、无倾斜） ocr: unclip_ratio: 1.3 # 较小扩展，保持精确 # 中等质量扫描件（推荐） ocr: unclip_ratio: 1.5 # 平衡精确度和完整性 # 低质量扫描件（模糊、倾斜） ocr: unclip_ratio: 1.8 # 较大扩展，确保包含完整文字 ``` ### 2. **根据文档类型调整** ```yaml # 表格场景（密集文本） ocr: unclip_ratio: 1.5 # 较小扩展，避免框重叠 enable_merge_det_boxes: false # 不合并框 # 普通文本场景 ocr: unclip_ratio: 1.6 # 中等扩展 enable_merge_det_boxes: true # 可以合并框 # 稀疏文本场景 ocr: unclip_ratio: 1.8 # 较大扩展，确保包含完整文字 ``` ### 3. **与 `box_thresh` 配合使用** ```yaml # 严格检测 + 精确扩展 ocr: det_threshold: 0.6 # 高阈值，减少噪声框 unclip_ratio: 1.5 # 精确扩展 # 宽松检测 + 较大扩展 ocr: det_threshold: 0.3 # 低阈值，检测更多框 unclip_ratio: 1.8 # 较大扩展，确保包含文字 ``` ## 📈 性能影响 ### 识别准确率 | unclip_ratio | 文字完整性 | 精确度 | 相邻文字干扰 | 综合评分 | |-------------|----------|--------|------------|---------| | 1.3 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | | **1.5** | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | **⭐⭐⭐⭐⭐** | | 1.8 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ### 处理速度 - `unclip_ratio` 对处理速度影响很小（< 1%） - 主要影响识别准确率，而非速度 ## 🎯 推荐配置 ### PPStructureV3 配置（推荐） ```yaml ocr: det_threshold: 0.6 unclip_ratio: 1.5 # ✅ 推荐值 enable_merge_det_boxes: false ``` ### MinerU 默认配置 ```yaml ocr: det_threshold: 0.3 unclip_ratio: 1.8 # ⚠️ 可能过大，建议改为1.5 enable_merge_det_boxes: true ``` ### 优化后的配置 ```yaml ocr: det_threshold: 0.6 # 提高检测阈值 unclip_ratio: 1.5 # 降低扩展比例（从1.8改为1.5） enable_merge_det_boxes: false # 表格场景不合并 ``` ## 🔧 代码实现 ### PaddleOCR 中的使用 ```python # 在文本检测后处理中使用 def unclip_boxes(boxes, unclip_ratio): """ 扩展检测框 Args: boxes: 检测框列表 [(x1, y1, x2, y2), ...] unclip_ratio: 扩展比例（如 1.5） Returns: 扩展后的检测框列表 """ expanded_boxes = [] for box in boxes: x1, y1, x2, y2 = box width = x2 - x1 height = y2 - y1 # 计算扩展后的尺寸 new_width = width * unclip_ratio new_height = height * unclip_ratio # 保持中心点不变 center_x = x1 + width / 2 center_y = y1 + height / 2 # 计算新的坐标 new_x1 = center_x - new_width / 2 new_y1 = center_y - new_height / 2 new_x2 = center_x + new_width / 2 new_y2 = center_y + new_height / 2 expanded_boxes.append([new_x1, new_y1, new_x2, new_y2]) return expanded_boxes ``` ## ⚠️ 常见问题 ### Q1: `unclip_ratio` 越大越好吗？ **A:** 不是。过大的 `unclip_ratio` 会导致： - 检测框包含过多背景 - 相邻文字框重叠 - 识别准确率下降 **建议**：从 1.5 开始，根据实际效果调整。 ### Q2: 为什么 PPStructureV3 使用 1.5，而 MinerU 使用 1.8？ **A:** - **PPStructureV3 (1.5)**：更注重精确度，适合高质量文档 - **MinerU (1.8)**：更注重完整性，适合低质量扫描件 **建议**：对于表格等密集文本，使用 1.5 更合适。 ### Q3: 如何判断 `unclip_ratio` 是否合适？ **A:** 检查识别结果： - **框太紧**：文字被裁剪 → 增大 `unclip_ratio` - **框太松**：包含相邻文字 → 减小 `unclip_ratio` - **框重叠**：相邻单元格合并 → 减小 `unclip_ratio` 或关闭 `enable_merge_det_boxes` ### Q4: `unclip_ratio` 和 `box_thresh` 的关系？ **A:** - `box_thresh`：控制哪些检测框被保留（过滤低置信度框） - `unclip_ratio`：控制检测框的扩展程度（调整框的大小）两者独立，但可以配合使用： - 高 `box_thresh` + 低 `unclip_ratio`：严格检测，精确扩展 - 低 `box_thresh` + 高 `unclip_ratio`：宽松检测，较大扩展 ## 📚 相关文档 - [OCR识别差异分析与改进方案.md](./OCR识别差异分析与改进方案.md) - 参数优化说明 - [模型统一框架.md](./模型统一框架.md) - OCR配置说明 ## 🎯 总结 | 特性 | 说明 | |-----|------| | **作用** | 扩展文本检测框，确保包含完整文字 | | **算法** | Vatti Clipping 算法 | | **推荐值** | **1.5**（PPStructureV3默认） | | **范围** | 1.0 - 2.0（通常 1.3 - 1.8） | | **影响** | 主要影响识别准确率，对速度影响很小 | | **调优** | 根据文档质量和类型调整 | **最佳实践**： - ✅ 表格场景：`unclip_ratio=1.5`，`enable_merge_det_boxes=false` - ✅ 普通文本：`unclip_ratio=1.5-1.6`，`enable_merge_det_boxes=true` - ✅ 低质量扫描件：`unclip_ratio=1.8`，`enable_merge_det_boxes=true`