# `unclip_ratio` 参数说明
## 📋 概述
`unclip_ratio` 是 OCR 文本检测中的一个重要参数,用于控制检测框的扩展比例。
## 🎯 作用原理
### 1. **Vatti Clipping 算法**
`unclip_ratio` 使用 **Vatti Clipping 算法**对检测到的文字区域进行扩张(unclip)。
### 2. **工作原理**
```
原始检测框(可能过紧)
┌─────────┐
│ 文本 │ ← 检测模型输出的框可能太紧,裁剪了文字边缘
└─────────┘
应用 unclip_ratio = 1.5 后
┌───────────────┐
│ │
│ 文本 │ ← 扩展后的框,包含完整的文字区域
│ │
└───────────────┘
```
### 3. **数学公式**
```python
# 计算扩展后的框尺寸
width = x2 - x1
height = y2 - y1
new_width = width * unclip_ratio
new_height = height * unclip_ratio
# 保持中心点不变,扩展框
center_x = x1 + width / 2
center_y = y1 + height / 2
new_x1 = center_x - new_width / 2
new_y1 = center_y - new_height / 2
new_x2 = center_x + new_width / 2
new_y2 = center_y + new_height / 2
```
## 📊 参数影响
### 不同 `unclip_ratio` 值的效果
| unclip_ratio | 扩展程度 | 适用场景 | 优缺点 |
|-------------|---------|---------|--------|
| **1.0** | 不扩展 | 检测框已经很精确 | ✅ 精确度高
❌ 可能裁剪文字边缘 |
| **1.3** | 轻微扩展 | 高质量扫描件 | ✅ 精确度较高
✅ 包含完整文字 |
| **1.5** | 中等扩展 | **推荐值**(PPStructureV3默认) | ✅ 平衡精确度和完整性
✅ 适合大多数场景 |
| **1.8** | 较大扩展 | MinerU默认,质量较差的扫描件 | ✅ 确保包含完整文字
❌ 可能包含过多背景 |
| **2.0+** | 大幅扩展 | 极低质量图像 | ✅ 最大程度包含文字
❌ 精确度低,可能包含相邻文字 |
## 🔍 实际效果对比
### 示例1:正常文本
```
原始检测框(unclip_ratio=1.0)
┌────────┐
│ 货币资金 │ ← 可能裁剪了"货"字的左边
└────────┘
unclip_ratio=1.5(推荐)
┌───────────┐
│ 货币资金 │ ← 包含完整文字
└───────────┘
unclip_ratio=1.8(过大)
┌─────────────┐
│ 货币资金 │ ← 包含过多空白,可能影响识别
└─────────────┘
```
### 示例2:密集文本(表格)
```
unclip_ratio=1.5(推荐)
┌─────┐ ┌─────┐
│ 资产 │ │ 负债 │ ← 框精确,不重叠
└─────┘ └─────┘
unclip_ratio=1.8(过大)
┌──────┐┌──────┐
│ 资产 ││ 负债 │ ← 框重叠,可能合并相邻单元格
└──────┘└──────┘
```
## ⚙️ 参数调优建议
### 1. **根据文档质量调整**
```yaml
# 高质量扫描件(清晰、无倾斜)
ocr:
unclip_ratio: 1.3 # 较小扩展,保持精确
# 中等质量扫描件(推荐)
ocr:
unclip_ratio: 1.5 # 平衡精确度和完整性
# 低质量扫描件(模糊、倾斜)
ocr:
unclip_ratio: 1.8 # 较大扩展,确保包含完整文字
```
### 2. **根据文档类型调整**
```yaml
# 表格场景(密集文本)
ocr:
unclip_ratio: 1.5 # 较小扩展,避免框重叠
enable_merge_det_boxes: false # 不合并框
# 普通文本场景
ocr:
unclip_ratio: 1.6 # 中等扩展
enable_merge_det_boxes: true # 可以合并框
# 稀疏文本场景
ocr:
unclip_ratio: 1.8 # 较大扩展,确保包含完整文字
```
### 3. **与 `box_thresh` 配合使用**
```yaml
# 严格检测 + 精确扩展
ocr:
det_threshold: 0.6 # 高阈值,减少噪声框
unclip_ratio: 1.5 # 精确扩展
# 宽松检测 + 较大扩展
ocr:
det_threshold: 0.3 # 低阈值,检测更多框
unclip_ratio: 1.8 # 较大扩展,确保包含文字
```
## 📈 性能影响
### 识别准确率
| unclip_ratio | 文字完整性 | 精确度 | 相邻文字干扰 | 综合评分 |
|-------------|----------|--------|------------|---------|
| 1.3 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| **1.5** | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | **⭐⭐⭐⭐⭐** |
| 1.8 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
### 处理速度
- `unclip_ratio` 对处理速度影响很小(< 1%)
- 主要影响识别准确率,而非速度
## 🎯 推荐配置
### PPStructureV3 配置(推荐)
```yaml
ocr:
det_threshold: 0.6
unclip_ratio: 1.5 # ✅ 推荐值
enable_merge_det_boxes: false
```
### MinerU 默认配置
```yaml
ocr:
det_threshold: 0.3
unclip_ratio: 1.8 # ⚠️ 可能过大,建议改为1.5
enable_merge_det_boxes: true
```
### 优化后的配置
```yaml
ocr:
det_threshold: 0.6 # 提高检测阈值
unclip_ratio: 1.5 # 降低扩展比例(从1.8改为1.5)
enable_merge_det_boxes: false # 表格场景不合并
```
## 🔧 代码实现
### PaddleOCR 中的使用
```python
# 在文本检测后处理中使用
def unclip_boxes(boxes, unclip_ratio):
"""
扩展检测框
Args:
boxes: 检测框列表 [(x1, y1, x2, y2), ...]
unclip_ratio: 扩展比例(如 1.5)
Returns:
扩展后的检测框列表
"""
expanded_boxes = []
for box in boxes:
x1, y1, x2, y2 = box
width = x2 - x1
height = y2 - y1
# 计算扩展后的尺寸
new_width = width * unclip_ratio
new_height = height * unclip_ratio
# 保持中心点不变
center_x = x1 + width / 2
center_y = y1 + height / 2
# 计算新的坐标
new_x1 = center_x - new_width / 2
new_y1 = center_y - new_height / 2
new_x2 = center_x + new_width / 2
new_y2 = center_y + new_height / 2
expanded_boxes.append([new_x1, new_y1, new_x2, new_y2])
return expanded_boxes
```
## ⚠️ 常见问题
### Q1: `unclip_ratio` 越大越好吗?
**A:** 不是。过大的 `unclip_ratio` 会导致:
- 检测框包含过多背景
- 相邻文字框重叠
- 识别准确率下降
**建议**:从 1.5 开始,根据实际效果调整。
### Q2: 为什么 PPStructureV3 使用 1.5,而 MinerU 使用 1.8?
**A:**
- **PPStructureV3 (1.5)**:更注重精确度,适合高质量文档
- **MinerU (1.8)**:更注重完整性,适合低质量扫描件
**建议**:对于表格等密集文本,使用 1.5 更合适。
### Q3: 如何判断 `unclip_ratio` 是否合适?
**A:** 检查识别结果:
- **框太紧**:文字被裁剪 → 增大 `unclip_ratio`
- **框太松**:包含相邻文字 → 减小 `unclip_ratio`
- **框重叠**:相邻单元格合并 → 减小 `unclip_ratio` 或关闭 `enable_merge_det_boxes`
### Q4: `unclip_ratio` 和 `box_thresh` 的关系?
**A:**
- `box_thresh`:控制哪些检测框被保留(过滤低置信度框)
- `unclip_ratio`:控制检测框的扩展程度(调整框的大小)
两者独立,但可以配合使用:
- 高 `box_thresh` + 低 `unclip_ratio`:严格检测,精确扩展
- 低 `box_thresh` + 高 `unclip_ratio`:宽松检测,较大扩展
## 📚 相关文档
- [OCR识别差异分析与改进方案.md](./OCR识别差异分析与改进方案.md) - 参数优化说明
- [模型统一框架.md](./模型统一框架.md) - OCR配置说明
## 🎯 总结
| 特性 | 说明 |
|-----|------|
| **作用** | 扩展文本检测框,确保包含完整文字 |
| **算法** | Vatti Clipping 算法 |
| **推荐值** | **1.5**(PPStructureV3默认) |
| **范围** | 1.0 - 2.0(通常 1.3 - 1.8) |
| **影响** | 主要影响识别准确率,对速度影响很小 |
| **调优** | 根据文档质量和类型调整 |
**最佳实践**:
- ✅ 表格场景:`unclip_ratio=1.5`,`enable_merge_det_boxes=false`
- ✅ 普通文本:`unclip_ratio=1.5-1.6`,`enable_merge_det_boxes=true`
- ✅ 低质量扫描件:`unclip_ratio=1.8`,`enable_merge_det_boxes=true`