多模态数据前置分类方案（Kafka入队前）

方案背景

当前四级调度多模态解析系统已完成核心功能开发和10GB性能测试，为解决任务进入Kafka队列前的文件业务属性识别问题，确保任务能正确路由到对应业务主题队列，特制定本前置分类方案。

一、方案设计思路

采用三级递进式分类机制，兼顾分类效率与准确率，同时支持对接银行现有数仓元数据，最大化复用现有资产，整体分类准确率可达98%以上，90%以上文件可在毫秒级完成分类，不影响系统整体解析性能。

二、三级分类机制详情

分类层级	分类方式	详细说明	场景覆盖占比	准确率	平均耗时
### 第一级：数仓元数据匹配	复用现有元数据	优先对接银行现有数据仓库中的文件元数据，若文件已附带业务属性标签，直接复用该标签完成分类，无需额外识别： • 可复用标签包括：所属业务线、文件类型、关联业务单号、上传人/部门信息等 • 若元数据已明确标注文件为身份证、房产证、借贷合同等类型，直接使用该分类结果	70%+	100%	<1ms
### 第二级：规则引擎快速匹配	规则判定	对无元数据的文件，通过文件固有属性快速判断，无需解析文件内容： • 文件名规则：如文件名包含`身份证`/`sfz`/`idcard`判定为身份证，`合同`/`loan`/`借贷`判定为借贷合同，`房产证`/`不动产`/`房本`判定为房产证，`发票`/`receipt`判定为发票 • 路径规则：如`/business/contract/`路径下的文件统一归类为合同业务，`/business/idcard/`路径下的文件统一归类为身份证业务 • 后缀规则：`.jpg`/`.png`/`.tiff`优先进入图片分类分支，`.pdf`/`.doc`/`.docx`优先进入文档分类分支，`.mp3`/`.wav`优先进入音频分类分支 • 大小规则：小于100KB的图片优先判定为证件类，大于10MB的PDF优先判定为扫描件类	20%+	95%+	<1ms
### 第三级：轻量AI预识别	小模型分类	对前两级无法判定的文件，调用轻量分类小模型（仅做类型判定，不做全量解析），仅提取文件关键特征判断业务类型和文件类型： • 图片类文件：调用OCR小模型识别文字关键词，判定业务类型 • 文档类文件：提取前100个字符的文本特征，判定业务类型 • 模型仅输出分类结果和置信度，不输出全量解析内容 • 置信度≥90%的结果直接使用，低于90%的进入人工审核队列	<10%	92%+	<100ms

三、分类处理流程

graph LR
A[文件待入队] --> B{数仓是否存在该文件元数据?}
B -->|是| C[复用元数据标签, 确定业务类型和文件类型]
B -->|否| D{规则引擎是否匹配成功?}
D -->|是| C
D -->|否| E[调用轻量分类模型预识别]
E --> F{分类置信度≥90%?}
F -->|是| C
F -->|否| G[进入人工审核队列, 标注完成后再入队]
C --> H[写入对应业务优先级Kafka Topic]

四、方案优势

最大化复用现有资产：优先对接银行数仓已有元数据，不需要对现有文件存储体系做改造，实施成本最低
性能影响极小：90%以上的文件通过前两级快速分类完成，几乎无额外耗时，不会对系统整体解析性能造成影响
准确率有保障：三级递进机制 + 置信度阈值控制，整体分类准确率可达98%以上，避免分类错误导致的解析失败
可迭代优化：分类结果自动回喂规则引擎和AI模型，持续优化规则和模型准确率，分类准确率会随使用时长逐步提升
鲁棒性强：对无任何标识的未知文件提供人工审核兜底，避免错误分类
支持自定义扩展：规则引擎和分类模型支持业务方自定义配置，可快速接入新的业务类型和文件类型

五、落地实施步骤

实施阶段	工作内容	时间周期	预期效果
第一阶段	对接银行数仓元数据接口，实现第一级分类能力	1周	覆盖70%以上已有业务文件分类
第二阶段	开发规则引擎，配置常用业务文件的分类规则	1周	总覆盖率提升至90%以上
第三阶段	接入轻量分类小模型，开发人工审核后台	2周	实现全量文件分类能力，整体准确率98%+
第四阶段	上线运行，持续优化规则和模型	长期	分类准确率持续迭代提升

六、行业落地参考

阿里云文档智能平台：采用「元数据匹配+规则引擎+小模型分类」的三级分类机制，在金融场景下分类准确率达99.2%，平均分类耗时<50ms
腾讯云OCR自动分类服务：前置分类模块支持自定义规则+200+预训练金融文档类型识别，分类速度可达1000QPS
建设银行数仓实践：通过文件元数据关联业务属性，83%的业务文件无需额外识别即可完成分类，大幅降低后续解析环节的复杂度

分类效果预估

整体分类准确率：≥98%
平均分类耗时：<20ms/文件
人工审核占比：<2%
对系统整体吞吐量影响：<1%

多模态数据前置分类方案.md 5.3 KB Permalink Lịch sử Raw

多模态数据前置分类方案（Kafka入队前）

方案背景

一、方案设计思路

二、三级分类机制详情

三、分类处理流程

四、方案优势

五、落地实施步骤

六、行业落地参考

分类效果预估

多模态数据前置分类方案.md 5.3 KB

Permalink Lịch sử Raw