|
|
@@ -260,9 +260,10 @@ mindmap
|
|
|
| 模型 | 核心算法 | 输出内容 | 适合场景 | 优势 | 劣势 |
|
|
|
|------|---------|---------|---------|------|------|
|
|
|
| **LayoutLMv3** | 文本+图像+位置多模态 Transformer | 区域框 + 文本理解 + 阅读顺序 | 合同、票据、科研论文、多页文档 | 理解文档语义、结构能力强 | 模型大、推理慢、训练成本高 |
|
|
|
-| **DiT** | 纯视觉 Transformer(文档域预训练) | 区域框 + 多尺度视觉特征 | 高分辨率文档、复杂视觉布局 | 视觉理解强、DocLayNet SOTA | 不理解文本语义、需大数据训练 |
|
|
|
+| **DiT** | 纯视觉 Transformer(文档域预训练) | 区域框 + 多尺度视觉特征 | 高分辨率文档、复杂视觉布局 | 视觉理解强、PubLayNet SOTA | 不理解文本语义、需大数据训练、对训练数据依赖性强 |
|
|
|
| **BEiT** | 掩码图像建模(自监督预训练) | 视觉特征表示(作为Backbone) | 预训练骨干网络、迁移学习 | 自监督学习、通用性强 | 主要用于预训练,不直接用于检测 |
|
|
|
-| **DiT + Detectron2** | DiT Backbone + Detectron2 Detection Head | 区域框 + Masks + 语义特征 | 最强布局检测(DocLayNet SOTA) | 结合Transformer全局理解 + 检测精度 | 计算资源需求高 |
|
|
|
+| **DiT + Detectron2** | DiT Backbone + Detectron2 Detection Head | 区域框 + Masks + 语义特征 | 学术论文布局(PubLayNet SOTA) | 结合Transformer全局理解 + 检测精度 | 计算资源需求高、对训练数据匹配度要求高 ⚠️ |
|
|
|
+| **RT-DETR (Docling)** | Hybrid CNN-Transformer 端到端检测 | 区域框 + 类别(17类) | 商业文档、财务报表、多样化文档 | 类别体系完善、商业文档适配好、无需NMS | 在学术论文上可能不如DiT |
|
|
|
|
|
|
## 🔗 六、模型关系与组合(架构组合视角)
|
|
|
|