当前四级调度多模态解析系统已完成核心功能开发和10GB性能测试,为解决任务进入Kafka队列前的文件业务属性识别问题,确保任务能正确路由到对应业务主题队列,特制定本前置分类方案。
采用三级递进式分类机制,兼顾分类效率与准确率,同时支持对接银行现有数仓元数据,最大化复用现有资产,整体分类准确率可达98%以上,90%以上文件可在毫秒级完成分类,不影响系统整体解析性能。
| 分类层级 | 分类方式 | 详细说明 | 场景覆盖占比 | 准确率 | 平均耗时 |
|---|---|---|---|---|---|
| ### 第一级:数仓元数据匹配 | 复用现有元数据 | 优先对接银行现有数据仓库中的文件元数据,若文件已附带业务属性标签,直接复用该标签完成分类,无需额外识别: • 可复用标签包括:所属业务线、文件类型、关联业务单号、上传人/部门信息等 • 若元数据已明确标注文件为身份证、房产证、借贷合同等类型,直接使用该分类结果 |
70%+ | 100% | <1ms |
| ### 第二级:规则引擎快速匹配 | 规则判定 | 对无元数据的文件,通过文件固有属性快速判断,无需解析文件内容: • 文件名规则:如文件名包含 *身份证*/*sfz*/*idcard*判定为身份证,*合同*/*loan*/*借贷*判定为借贷合同,*房产证*/*不动产*/*房本*判定为房产证,*发票*/*receipt*判定为发票• 路径规则:如 /business/contract/路径下的文件统一归类为合同业务,/business/idcard/路径下的文件统一归类为身份证业务• 后缀规则: .jpg/.png/.tiff优先进入图片分类分支,.pdf/.doc/.docx优先进入文档分类分支,.mp3/.wav优先进入音频分类分支• 大小规则:小于100KB的图片优先判定为证件类,大于10MB的PDF优先判定为扫描件类 |
20%+ | 95%+ | <1ms |
| ### 第三级:轻量AI预识别 | 小模型分类 | 对前两级无法判定的文件,调用轻量分类小模型(仅做类型判定,不做全量解析),仅提取文件关键特征判断业务类型和文件类型: • 图片类文件:调用OCR小模型识别文字关键词,判定业务类型 • 文档类文件:提取前100个字符的文本特征,判定业务类型 • 模型仅输出分类结果和置信度,不输出全量解析内容 • 置信度≥90%的结果直接使用,低于90%的进入人工审核队列 |
<10% | 92%+ | <100ms |
graph LR
A[文件待入队] --> B{数仓是否存在该文件元数据?}
B -->|是| C[复用元数据标签, 确定业务类型和文件类型]
B -->|否| D{规则引擎是否匹配成功?}
D -->|是| C
D -->|否| E[调用轻量分类模型预识别]
E --> F{分类置信度≥90%?}
F -->|是| C
F -->|否| G[进入人工审核队列, 标注完成后再入队]
C --> H[写入对应业务优先级Kafka Topic]
| 实施阶段 | 工作内容 | 时间周期 | 预期效果 |
|---|---|---|---|
| 第一阶段 | 对接银行数仓元数据接口,实现第一级分类能力 | 1周 | 覆盖70%以上已有业务文件分类 |
| 第二阶段 | 开发规则引擎,配置常用业务文件的分类规则 | 1周 | 总覆盖率提升至90%以上 |
| 第三阶段 | 接入轻量分类小模型,开发人工审核后台 | 2周 | 实现全量文件分类能力,整体准确率98%+ |
| 第四阶段 | 上线运行,持续优化规则和模型 | 长期 | 分类准确率持续迭代提升 |