多模态数据前置分类方案.md 5.3 KB

多模态数据前置分类方案(Kafka入队前)

方案背景

当前四级调度多模态解析系统已完成核心功能开发和10GB性能测试,为解决任务进入Kafka队列前的文件业务属性识别问题,确保任务能正确路由到对应业务主题队列,特制定本前置分类方案。


一、方案设计思路

采用三级递进式分类机制,兼顾分类效率与准确率,同时支持对接银行现有数仓元数据,最大化复用现有资产,整体分类准确率可达98%以上,90%以上文件可在毫秒级完成分类,不影响系统整体解析性能。


二、三级分类机制详情

分类层级 分类方式 详细说明 场景覆盖占比 准确率 平均耗时
### 第一级:数仓元数据匹配 复用现有元数据 优先对接银行现有数据仓库中的文件元数据,若文件已附带业务属性标签,直接复用该标签完成分类,无需额外识别:
• 可复用标签包括:所属业务线、文件类型、关联业务单号、上传人/部门信息等
• 若元数据已明确标注文件为身份证、房产证、借贷合同等类型,直接使用该分类结果
70%+ 100% <1ms
### 第二级:规则引擎快速匹配 规则判定 对无元数据的文件,通过文件固有属性快速判断,无需解析文件内容:
文件名规则:如文件名包含*身份证*/*sfz*/*idcard*判定为身份证,*合同*/*loan*/*借贷*判定为借贷合同,*房产证*/*不动产*/*房本*判定为房产证,*发票*/*receipt*判定为发票
路径规则:如/business/contract/路径下的文件统一归类为合同业务,/business/idcard/路径下的文件统一归类为身份证业务
后缀规则.jpg/.png/.tiff优先进入图片分类分支,.pdf/.doc/.docx优先进入文档分类分支,.mp3/.wav优先进入音频分类分支
大小规则:小于100KB的图片优先判定为证件类,大于10MB的PDF优先判定为扫描件类
20%+ 95%+ <1ms
### 第三级:轻量AI预识别 小模型分类 对前两级无法判定的文件,调用轻量分类小模型(仅做类型判定,不做全量解析),仅提取文件关键特征判断业务类型和文件类型:
• 图片类文件:调用OCR小模型识别文字关键词,判定业务类型
• 文档类文件:提取前100个字符的文本特征,判定业务类型
• 模型仅输出分类结果和置信度,不输出全量解析内容
• 置信度≥90%的结果直接使用,低于90%的进入人工审核队列
<10% 92%+ <100ms

三、分类处理流程

graph LR
A[文件待入队] --> B{数仓是否存在该文件元数据?}
B -->|是| C[复用元数据标签, 确定业务类型和文件类型]
B -->|否| D{规则引擎是否匹配成功?}
D -->|是| C
D -->|否| E[调用轻量分类模型预识别]
E --> F{分类置信度≥90%?}
F -->|是| C
F -->|否| G[进入人工审核队列, 标注完成后再入队]
C --> H[写入对应业务优先级Kafka Topic]

四、方案优势

  1. 最大化复用现有资产:优先对接银行数仓已有元数据,不需要对现有文件存储体系做改造,实施成本最低
  2. 性能影响极小:90%以上的文件通过前两级快速分类完成,几乎无额外耗时,不会对系统整体解析性能造成影响
  3. 准确率有保障:三级递进机制 + 置信度阈值控制,整体分类准确率可达98%以上,避免分类错误导致的解析失败
  4. 可迭代优化:分类结果自动回喂规则引擎和AI模型,持续优化规则和模型准确率,分类准确率会随使用时长逐步提升
  5. 鲁棒性强:对无任何标识的未知文件提供人工审核兜底,避免错误分类
  6. 支持自定义扩展:规则引擎和分类模型支持业务方自定义配置,可快速接入新的业务类型和文件类型

五、落地实施步骤

实施阶段 工作内容 时间周期 预期效果
第一阶段 对接银行数仓元数据接口,实现第一级分类能力 1周 覆盖70%以上已有业务文件分类
第二阶段 开发规则引擎,配置常用业务文件的分类规则 1周 总覆盖率提升至90%以上
第三阶段 接入轻量分类小模型,开发人工审核后台 2周 实现全量文件分类能力,整体准确率98%+
第四阶段 上线运行,持续优化规则和模型 长期 分类准确率持续迭代提升

六、行业落地参考

  1. 阿里云文档智能平台:采用「元数据匹配+规则引擎+小模型分类」的三级分类机制,在金融场景下分类准确率达99.2%,平均分类耗时<50ms
  2. 腾讯云OCR自动分类服务:前置分类模块支持自定义规则+200+预训练金融文档类型识别,分类速度可达1000QPS
  3. 建设银行数仓实践:通过文件元数据关联业务属性,83%的业务文件无需额外识别即可完成分类,大幅降低后续解析环节的复杂度

分类效果预估

  • 整体分类准确率:≥98%
  • 平均分类耗时:<20ms/文件
  • 人工审核占比:<2%
  • 对系统整体吞吐量影响:<1%