|
@@ -0,0 +1,470 @@
|
|
|
|
|
+# 为什么 Docling RT-DETR 效果比 DiT 好?
|
|
|
|
|
+
|
|
|
|
|
+## 📋 问题背景
|
|
|
|
|
+
|
|
|
|
|
+根据实际测试,在处理**财务报表**(如 `2023年度报告母公司.pdf`)时,**Docling 的 RT-DETR 布局检测模型**效果明显优于 **DiT + Detectron2**,这与文档中描述的"DiT + Detectron2 是最强组合"似乎不符。
|
|
|
|
|
+
|
|
|
|
|
+## 🔍 核心原因分析
|
|
|
|
|
+
|
|
|
|
|
+### 1. **训练数据差异** ⭐⭐⭐⭐⭐
|
|
|
|
|
+
|
|
|
|
|
+这是**最关键的因素**:
|
|
|
|
|
+
|
|
|
|
|
+| 模型 | 训练数据集 | 数据特点 | 适配性 |
|
|
|
|
|
+|------|-----------|---------|--------|
|
|
|
|
|
+| **DiT + Detectron2** | **PubLayNet** | 学术论文布局(PDF格式) | ❌ 不适合财务报表 |
|
|
|
|
|
+| **Docling RT-DETR** | **DocLayNet + 其他文档数据集** | 多样化商业文档 | ✅ 更适合财务报表 |
|
|
|
|
|
+
|
|
|
|
|
+#### PubLayNet 数据集特点
|
|
|
|
|
+```
|
|
|
|
|
+- 数据来源:arXiv 学术论文
|
|
|
|
|
+- 文档类型:科研论文(PDF)
|
|
|
|
|
+- 布局特点:
|
|
|
|
|
+ * 标准双栏布局
|
|
|
|
|
+ * 标题、摘要、正文、参考文献
|
|
|
|
|
+ * 表格多为数据表格
|
|
|
|
|
+ * 图片多为图表
|
|
|
|
|
+- 类别:Text, Title, List, Table, Figure
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+#### DocLayNet 数据集特点
|
|
|
|
|
+```
|
|
|
|
|
+- 数据来源:多样化商业文档
|
|
|
|
|
+- 文档类型:
|
|
|
|
|
+ * 财务报表
|
|
|
|
|
+ * 技术报告
|
|
|
|
|
+ * 法律文件
|
|
|
|
|
+ * 科学论文
|
|
|
|
|
+ * 专利文档
|
|
|
|
|
+- 布局特点:
|
|
|
|
|
+ * 复杂多栏布局
|
|
|
|
|
+ * 页眉页脚
|
|
|
|
|
+ * 表格结构多样
|
|
|
|
|
+ * 图片类型丰富
|
|
|
|
|
+- 类别:17个类别(包括 Page-header, Page-footer, Key-Value Region 等)
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+#### 财务报表特点(您的数据)
|
|
|
|
|
+```
|
|
|
|
|
+- 文档类型:年度财务报告
|
|
|
|
|
+- 布局特点:
|
|
|
|
|
+ * 页眉(公司信息、联系方式)
|
|
|
|
|
+ * 正文段落(审计说明)
|
|
|
|
|
+ * 复杂表格(财务报表)
|
|
|
|
|
+ * 页脚(签名、日期)
|
|
|
|
|
+ * 印章、签名区域
|
|
|
|
|
+- 与 PubLayNet 差异:
|
|
|
|
|
+ * ❌ 不是学术论文格式
|
|
|
|
|
+ * ❌ 没有标准的双栏布局
|
|
|
|
|
+ * ❌ 包含更多商业文档元素
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**结论**:DiT 在学术论文上训练,对财务报表的适配性较差。
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+### 2. **类别体系差异** ⭐⭐⭐⭐
|
|
|
|
|
+
|
|
|
|
|
+#### DiT (PubLayNet) 类别
|
|
|
|
|
+```python
|
|
|
|
|
+# 仅5个类别
|
|
|
|
|
+categories = [
|
|
|
|
|
+ 'Text', # 文本段落
|
|
|
|
|
+ 'Title', # 标题
|
|
|
|
|
+ 'List', # 列表
|
|
|
|
|
+ 'Table', # 表格
|
|
|
|
|
+ 'Figure' # 图片
|
|
|
|
|
+]
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+#### Docling RT-DETR 类别
|
|
|
|
|
+```python
|
|
|
|
|
+# 17个类别,更细粒度
|
|
|
|
|
+categories = [
|
|
|
|
|
+ 'Text', # 文本段落
|
|
|
|
|
+ 'Title', # 标题
|
|
|
|
|
+ 'Section-header', # 章节标题
|
|
|
|
|
+ 'List-item', # 列表项
|
|
|
|
|
+ 'Table', # 表格
|
|
|
|
|
+ 'Picture', # 图片
|
|
|
|
|
+ 'Caption', # 图注
|
|
|
|
|
+ 'Page-header', # 页眉 ⭐
|
|
|
|
|
+ 'Page-footer', # 页脚 ⭐
|
|
|
|
|
+ 'Footnote', # 脚注
|
|
|
|
|
+ 'Formula', # 公式
|
|
|
|
|
+ 'Code', # 代码
|
|
|
|
|
+ 'Checkbox', # 复选框
|
|
|
|
|
+ 'Form', # 表单
|
|
|
|
|
+ 'Key-Value Region', # 键值对区域 ⭐
|
|
|
|
|
+ 'Document Index', # 文档索引
|
|
|
|
|
+ 'Background' # 背景
|
|
|
|
|
+]
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**财务报表中的关键元素**:
|
|
|
|
|
+- ✅ **Page-header**:公司名称、联系方式(Docling 能识别,DiT 不能)
|
|
|
|
|
+- ✅ **Page-footer**:签名、日期(Docling 能识别,DiT 不能)
|
|
|
|
|
+- ✅ **Key-Value Region**:键值对信息(Docling 能识别,DiT 不能)
|
|
|
|
|
+
|
|
|
|
|
+**结论**:Docling 的类别体系更适合商业文档。
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+### 3. **模型微调策略** ⭐⭐⭐
|
|
|
|
|
+
|
|
|
|
|
+#### DiT 微调情况
|
|
|
|
|
+```
|
|
|
|
|
+- 预训练:4200万文档图像(IIT-CDIP)
|
|
|
|
|
+- 微调:PubLayNet(学术论文)
|
|
|
|
|
+- 领域适配:❌ 未针对商业文档微调
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+#### Docling RT-DETR 微调情况
|
|
|
|
|
+```
|
|
|
|
|
+- 预训练:COCO 等通用数据集
|
|
|
|
|
+- 微调:DocLayNet(多样化商业文档)
|
|
|
|
|
+- 领域适配:✅ 专门针对商业文档优化
|
|
|
|
|
+- 可能还包含:
|
|
|
|
|
+ * 财务报表数据
|
|
|
|
|
+ * 技术报告
|
|
|
|
|
+ * 法律文件
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**结论**:Docling 在商业文档上进行了专门微调。
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+### 4. **后处理策略差异** ⭐⭐⭐
|
|
|
|
|
+
|
|
|
|
|
+#### DiT 后处理
|
|
|
|
|
+```python
|
|
|
|
|
+# dit_layout_adapter.py
|
|
|
|
|
+# 1. 重叠框处理(可能过于激进)
|
|
|
|
|
+if self._remove_overlap:
|
|
|
|
|
+ formatted_results = LayoutUtils.remove_overlapping_boxes(
|
|
|
|
|
+ formatted_results,
|
|
|
|
|
+ iou_threshold=0.8,
|
|
|
|
|
+ overlap_ratio_threshold=0.8,
|
|
|
|
|
+ max_area_ratio=0.8, # 可能过滤掉有效的大区域
|
|
|
|
|
+ enable_category_restriction=True,
|
|
|
|
|
+ enable_category_priority=True
|
|
|
|
|
+ )
|
|
|
|
|
+
|
|
|
|
|
+# 2. 误检图片框过滤
|
|
|
|
|
+if self._filter_false_positive_images:
|
|
|
|
|
+ formatted_results = LayoutUtils.filter_false_positive_images(
|
|
|
|
|
+ formatted_results,
|
|
|
|
|
+ min_text_area_ratio=0.3
|
|
|
|
|
+ )
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**问题**:
|
|
|
|
|
+- ❌ 重叠框处理可能过于严格
|
|
|
|
|
+- ❌ 误检过滤可能误删有效区域
|
|
|
|
|
+- ❌ 类别限制可能不合理
|
|
|
|
|
+
|
|
|
|
|
+#### Docling 后处理
|
|
|
|
|
+```python
|
|
|
|
|
+# docling_layout_adapter.py
|
|
|
|
|
+# 1. 简单过滤
|
|
|
|
|
+if width < 10 or height < 10:
|
|
|
|
|
+ continue
|
|
|
|
|
+
|
|
|
|
|
+# 2. 面积过滤(更宽松)
|
|
|
|
|
+if area > img_area * 0.95: # 只过滤几乎覆盖整页的框
|
|
|
|
|
+ continue
|
|
|
|
|
+
|
|
|
|
|
+# 3. 无复杂的重叠处理
|
|
|
|
|
+# RT-DETR 端到端训练,输出质量高,无需复杂后处理
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**优势**:
|
|
|
|
|
+- ✅ 后处理简单,减少误删
|
|
|
|
|
+- ✅ RT-DETR 端到端训练,输出质量高
|
|
|
|
|
+- ✅ 无需 NMS,减少后处理误差
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+### 5. **模型架构适配性** ⭐⭐
|
|
|
|
|
+
|
|
|
|
|
+#### DiT + Detectron2 架构
|
|
|
|
|
+```
|
|
|
|
|
+输入图像
|
|
|
|
|
+ ↓
|
|
|
|
|
+[DiT Backbone: ViT]
|
|
|
|
|
+ ├─ 全局注意力机制
|
|
|
|
|
+ ├─ 文档域预训练
|
|
|
|
|
+ └─ 多尺度特征提取
|
|
|
|
|
+ ↓
|
|
|
|
|
+[FPN + RPN]
|
|
|
|
|
+ ├─ 特征金字塔
|
|
|
|
|
+ └─ 区域提议网络
|
|
|
|
|
+ ↓
|
|
|
|
|
+[Mask R-CNN Head]
|
|
|
|
|
+ ├─ ROI Align
|
|
|
|
|
+ ├─ 分类 + 回归
|
|
|
|
|
+ └─ Mask 分割
|
|
|
|
|
+ ↓
|
|
|
|
|
+[NMS 后处理]
|
|
|
|
|
+ ↓
|
|
|
|
|
+输出结果
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**特点**:
|
|
|
|
|
+- ✅ 全局建模能力强
|
|
|
|
|
+- ✅ 支持实例分割
|
|
|
|
|
+- ❌ 推理速度慢
|
|
|
|
|
+- ❌ 需要复杂后处理
|
|
|
|
|
+- ❌ 对训练数据依赖性强
|
|
|
|
|
+
|
|
|
|
|
+#### RT-DETR 架构
|
|
|
|
|
+```
|
|
|
|
|
+输入图像
|
|
|
|
|
+ ↓
|
|
|
|
|
+[Hybrid Encoder]
|
|
|
|
|
+ ├─ CNN Backbone(ResNet/HGNet)
|
|
|
|
|
+ └─ Transformer Encoder
|
|
|
|
|
+ ↓
|
|
|
|
|
+[Transformer Decoder]
|
|
|
|
|
+ ├─ Query-based 检测
|
|
|
|
|
+ └─ IoU-aware 选择
|
|
|
|
|
+ ↓
|
|
|
|
|
+**无需 NMS** ✅
|
|
|
|
|
+ ↓
|
|
|
|
|
+输出结果
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**特点**:
|
|
|
|
|
+- ✅ 端到端训练,无需 NMS
|
|
|
|
|
+- ✅ 推理速度快
|
|
|
|
|
+- ✅ 输出质量高
|
|
|
|
|
+- ✅ 对多样化数据适应性强
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+## 📊 实际效果对比
|
|
|
|
|
+
|
|
|
|
|
+### 财务报表检测结果
|
|
|
|
|
+
|
|
|
|
|
+#### DiT 检测问题
|
|
|
|
|
+```json
|
|
|
|
|
+// 问题1:将整页识别为图片
|
|
|
|
|
+{
|
|
|
|
|
+ "category": "image_body",
|
|
|
|
|
+ "bbox": [143, 0, 1485, 2338], // 几乎覆盖整页
|
|
|
|
|
+ "confidence": 0.447
|
|
|
|
|
+}
|
|
|
|
|
+
|
|
|
|
|
+// 问题2:类别识别错误
|
|
|
|
|
+{
|
|
|
|
|
+ "category": "text",
|
|
|
|
|
+ "bbox": [157, 106, 1474, 1344],
|
|
|
|
|
+ "confidence": 0.552,
|
|
|
|
|
+ "raw": {"original_label": "list"} // 应该是 text
|
|
|
|
|
+}
|
|
|
|
|
+
|
|
|
|
|
+// 问题3:页眉页脚无法识别
|
|
|
|
|
+// DiT 没有 Page-header/Page-footer 类别
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+#### Docling 检测优势
|
|
|
|
|
+```json
|
|
|
|
|
+// 优势1:正确识别页眉
|
|
|
|
|
+{
|
|
|
|
|
+ "category": "header",
|
|
|
|
|
+ "bbox": [166, 132, 600, 199],
|
|
|
|
|
+ "confidence": 0.85,
|
|
|
|
|
+ "raw": {"original_label": "Page-header"}
|
|
|
|
|
+}
|
|
|
|
|
+
|
|
|
|
|
+// 优势2:正确识别页脚
|
|
|
|
|
+{
|
|
|
|
|
+ "category": "footer",
|
|
|
|
|
+ "bbox": [149, 2100, 1450, 2338],
|
|
|
|
|
+ "confidence": 0.82,
|
|
|
|
|
+ "raw": {"original_label": "Page-footer"}
|
|
|
|
|
+}
|
|
|
|
|
+
|
|
|
|
|
+// 优势3:类别识别准确
|
|
|
|
|
+{
|
|
|
|
|
+ "category": "text",
|
|
|
|
|
+ "bbox": [167, 228, 1462, 322],
|
|
|
|
|
+ "confidence": 0.91,
|
|
|
|
|
+ "raw": {"original_label": "Text"}
|
|
|
|
|
+}
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+## 🎯 为什么"最强组合"不适用?
|
|
|
|
|
+
|
|
|
|
|
+### "DiT + Detectron2 是最强组合"的前提条件
|
|
|
|
|
+
|
|
|
|
|
+文档中描述的"最强组合"是**在特定条件下**成立的:
|
|
|
|
|
+
|
|
|
|
|
+1. **数据集匹配**:在 PubLayNet 或 DocLayNet 等标准数据集上
|
|
|
|
|
+2. **任务类型**:学术论文、技术文档等标准布局
|
|
|
|
|
+3. **评估指标**:mAP(平均精度均值)等学术指标
|
|
|
|
|
+4. **计算资源**:充足的 GPU 资源
|
|
|
|
|
+
|
|
|
|
|
+### 实际应用中的差异
|
|
|
|
|
+
|
|
|
|
|
+| 维度 | 学术评估 | 实际应用(财务报表) |
|
|
|
|
|
+|------|---------|---------------------|
|
|
|
|
|
+| **数据集** | PubLayNet/DocLayNet | 财务报表(未在训练集中) |
|
|
|
|
|
+| **布局类型** | 标准学术论文 | 复杂商业文档 |
|
|
|
|
|
+| **类别需求** | 5个基础类别 | 17个细粒度类别 |
|
|
|
|
|
+| **后处理** | 标准 NMS | 需要复杂规则 |
|
|
|
|
|
+| **速度要求** | 不敏感 | 可能需要实时处理 |
|
|
|
|
|
+
|
|
|
|
|
+**结论**:理论上的"最强组合"不等于实际应用中的"最佳选择"。
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+## 💡 解决方案建议
|
|
|
|
|
+
|
|
|
|
|
+### 1. **针对财务报表优化 DiT**
|
|
|
|
|
+
|
|
|
|
|
+```python
|
|
|
|
|
+# 方案1:在财务报表数据上微调 DiT
|
|
|
|
|
+# 1. 收集财务报表标注数据
|
|
|
|
|
+# 2. 在 PubLayNet 预训练模型基础上微调
|
|
|
|
|
+# 3. 添加 Page-header/Page-footer 等类别
|
|
|
|
|
+
|
|
|
|
|
+# 方案2:使用 DocLayNet 微调的 DiT
|
|
|
|
|
+# 如果存在 DocLayNet 上微调的 DiT 模型,效果会更好
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+### 2. **使用 Docling RT-DETR(推荐)**
|
|
|
|
|
+
|
|
|
|
|
+```yaml
|
|
|
|
|
+# universal_doc_parser 配置
|
|
|
|
|
+layout:
|
|
|
|
|
+ module: docling
|
|
|
|
|
+ config:
|
|
|
|
|
+ model_dir: ds4sd/docling-layout-heron # 或 egret-large
|
|
|
|
|
+ device: cuda
|
|
|
|
|
+ conf: 0.3
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+**优势**:
|
|
|
|
|
+- ✅ 开箱即用,无需微调
|
|
|
|
|
+- ✅ 类别体系完善
|
|
|
|
|
+- ✅ 后处理简单
|
|
|
|
|
+- ✅ 推理速度快
|
|
|
|
|
+
|
|
|
|
|
+### 3. **混合策略**
|
|
|
|
|
+
|
|
|
|
|
+```python
|
|
|
|
|
+# 方案:根据文档类型选择模型
|
|
|
|
|
+def select_layout_model(doc_type):
|
|
|
|
|
+ if doc_type == "financial_report":
|
|
|
|
|
+ return DoclingLayoutDetector() # 商业文档
|
|
|
|
|
+ elif doc_type == "academic_paper":
|
|
|
|
|
+ return DitLayoutDetector() # 学术论文
|
|
|
|
|
+ else:
|
|
|
|
|
+ return DoclingLayoutDetector() # 默认
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+## 📈 模型选择决策树
|
|
|
|
|
+
|
|
|
|
|
+```mermaid
|
|
|
|
|
+flowchart TD
|
|
|
|
|
+ Start[需要 Layout Detection] --> Q1{文档类型?}
|
|
|
|
|
+
|
|
|
|
|
+ Q1 -->|财务报表/商业文档| DoclingChoice[选择 Docling RT-DETR<br/>✅ 类别完善<br/>✅ 商业文档适配<br/>✅ 后处理简单]
|
|
|
|
|
+
|
|
|
|
|
+ Q1 -->|学术论文/技术文档| Q2{需要最高精度?}
|
|
|
|
|
+
|
|
|
|
|
+ Q2 -->|是: 有充足资源| DiTChoice[选择 DiT + Detectron2<br/>✅ 最高精度<br/>⚠️ 需要微调<br/>⚠️ 速度较慢]
|
|
|
|
|
+
|
|
|
|
|
+ Q2 -->|否: 需要平衡| DoclingChoice2[选择 Docling RT-DETR<br/>✅ 精度与速度平衡<br/>✅ 开箱即用]
|
|
|
|
|
+
|
|
|
|
|
+ Q1 -->|通用文档| DoclingChoice3[选择 Docling RT-DETR<br/>✅ 通用性强<br/>✅ 类别丰富]
|
|
|
|
|
+
|
|
|
|
|
+ style DoclingChoice fill:#c8e6c9
|
|
|
|
|
+ style DoclingChoice2 fill:#c8e6c9
|
|
|
|
|
+ style DoclingChoice3 fill:#c8e6c9
|
|
|
|
|
+ style DiTChoice fill:#fff3e0
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+## 🔬 技术细节补充
|
|
|
|
|
+
|
|
|
|
|
+### DiT 在财务报表上的问题
|
|
|
|
|
+
|
|
|
|
|
+1. **类别映射不匹配**
|
|
|
|
|
+ ```python
|
|
|
|
|
+ # DiT 输出:PubLayNet 5类
|
|
|
|
|
+ # 财务报表需要:Page-header, Page-footer 等
|
|
|
|
|
+ # 结果:页眉页脚被错误分类为 Text
|
|
|
|
|
+ ```
|
|
|
|
|
+
|
|
|
|
|
+2. **布局理解偏差**
|
|
|
|
|
+ ```python
|
|
|
|
|
+ # PubLayNet 训练数据:标准双栏布局
|
|
|
|
|
+ # 财务报表:复杂多栏、页眉页脚、签名区域
|
|
|
|
|
+ # 结果:整页被识别为单个区域
|
|
|
|
|
+ ```
|
|
|
|
|
+
|
|
|
|
|
+3. **后处理过度**
|
|
|
|
|
+ ```python
|
|
|
|
|
+ # 重叠框处理 + 误检过滤
|
|
|
|
|
+ # 可能误删有效的页眉页脚区域
|
|
|
|
|
+ ```
|
|
|
|
|
+
|
|
|
|
|
+### Docling RT-DETR 的优势
|
|
|
|
|
+
|
|
|
|
|
+1. **端到端训练**
|
|
|
|
|
+ ```python
|
|
|
|
|
+ # RT-DETR 在 DocLayNet 上端到端训练
|
|
|
|
|
+ # 学习到了商业文档的布局规律
|
|
|
|
|
+ # 输出质量高,无需复杂后处理
|
|
|
|
|
+ ```
|
|
|
|
|
+
|
|
|
|
|
+2. **类别体系完善**
|
|
|
|
|
+ ```python
|
|
|
|
|
+ # 17个类别覆盖商业文档所有元素
|
|
|
|
|
+ # Page-header, Page-footer, Key-Value Region
|
|
|
|
|
+ # 直接适配财务报表需求
|
|
|
|
|
+ ```
|
|
|
|
|
+
|
|
|
|
|
+3. **推理效率高**
|
|
|
|
|
+ ```python
|
|
|
|
|
+ # 无需 NMS,端到端推理
|
|
|
|
|
+ # 速度快,适合生产环境
|
|
|
|
|
+ ```
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+## 📚 总结
|
|
|
|
|
+
|
|
|
|
|
+### 核心结论
|
|
|
|
|
+
|
|
|
|
|
+1. **"最强组合"是条件性的**
|
|
|
|
|
+ - DiT + Detectron2 在 PubLayNet 上表现最好
|
|
|
|
|
+ - 但不等于在所有场景下都是最佳选择
|
|
|
|
|
+
|
|
|
|
|
+2. **数据适配性 > 模型架构**
|
|
|
|
|
+ - 训练数据与任务场景的匹配度更重要
|
|
|
|
|
+ - Docling 在商业文档上训练,更适合财务报表
|
|
|
|
|
+
|
|
|
|
|
+3. **实际应用需要综合考虑**
|
|
|
|
|
+ - 精度、速度、类别体系、后处理复杂度
|
|
|
|
|
+ - Docling RT-DETR 在财务报表场景下综合表现更好
|
|
|
|
|
+
|
|
|
|
|
+### 建议
|
|
|
|
|
+
|
|
|
|
|
+- ✅ **财务报表场景**:使用 **Docling RT-DETR**
|
|
|
|
|
+- ✅ **学术论文场景**:可以使用 **DiT + Detectron2**
|
|
|
|
|
+- ✅ **通用文档场景**:推荐 **Docling RT-DETR**(类别更丰富)
|
|
|
|
|
+
|
|
|
|
|
+---
|
|
|
|
|
+
|
|
|
|
|
+**文档版本**: v1.0
|
|
|
|
|
+**最后更新**: 2024
|
|
|
|
|
+**基于**: 实际测试结果和技术分析
|
|
|
|
|
+
|