소스 검색

feat: 更新 DiT 和 Detectron2 模型对比分析,增强文档内容

- 在文档中新增 DiT + Detectron2 的适用场景和优势描述,强调其在学术论文布局检测中的表现。
- 更新 DiT 模型的劣势部分,增加对训练数据依赖性的说明,提升用户对模型选择的理解。
- 增加 RT-DETR (Docling) 模型的介绍,扩展布局检测模型的比较视角。
zhch158_admin 1 주 전
부모
커밋
808f38d864
1개의 변경된 파일3개의 추가작업 그리고 2개의 파일을 삭제
  1. 3 2
      docs/ocr_tools/universal_doc_parser/layout模型发展路径整理.md

+ 3 - 2
docs/ocr_tools/universal_doc_parser/layout模型发展路径整理.md

@@ -260,9 +260,10 @@ mindmap
 | 模型 | 核心算法 | 输出内容 | 适合场景 | 优势 | 劣势 |
 |------|---------|---------|---------|------|------|
 | **LayoutLMv3** | 文本+图像+位置多模态 Transformer | 区域框 + 文本理解 + 阅读顺序 | 合同、票据、科研论文、多页文档 | 理解文档语义、结构能力强 | 模型大、推理慢、训练成本高 |
-| **DiT** | 纯视觉 Transformer(文档域预训练) | 区域框 + 多尺度视觉特征 | 高分辨率文档、复杂视觉布局 | 视觉理解强、DocLayNet SOTA | 不理解文本语义、需大数据训练 |
+| **DiT** | 纯视觉 Transformer(文档域预训练) | 区域框 + 多尺度视觉特征 | 高分辨率文档、复杂视觉布局 | 视觉理解强、PubLayNet SOTA | 不理解文本语义、需大数据训练、对训练数据依赖性强 |
 | **BEiT** | 掩码图像建模(自监督预训练) | 视觉特征表示(作为Backbone) | 预训练骨干网络、迁移学习 | 自监督学习、通用性强 | 主要用于预训练,不直接用于检测 |
-| **DiT + Detectron2** | DiT Backbone + Detectron2 Detection Head | 区域框 + Masks + 语义特征 | 最强布局检测(DocLayNet SOTA) | 结合Transformer全局理解 + 检测精度 | 计算资源需求高 |
+| **DiT + Detectron2** | DiT Backbone + Detectron2 Detection Head | 区域框 + Masks + 语义特征 | 学术论文布局(PubLayNet SOTA) | 结合Transformer全局理解 + 检测精度 | 计算资源需求高、对训练数据匹配度要求高 ⚠️ |
+| **RT-DETR (Docling)** | Hybrid CNN-Transformer 端到端检测 | 区域框 + 类别(17类) | 商业文档、财务报表、多样化文档 | 类别体系完善、商业文档适配好、无需NMS | 在学术论文上可能不如DiT |
 
 ## 🔗 六、模型关系与组合(架构组合视角)