当前四级调度多模态解析系统已实现多模态数据的全量解析,解析后的结构化文本内容、文件元数据已存储到Elasticsearch,同时各模态特征向量化后也同步存储到ES的dense_vector字段中。本方案基于现有ES存储架构,构建多模态智能检索能力,无需额外引入独立向量数据库,最大化复用现有技术栈和存储资源。
采用「三层架构」设计,完全基于现有ES存储体系,与现有解析流程无缝对接:
| 层级 | 说明 | 复用现有能力 |
|---|---|---|
| 接入层 | 提供统一检索API,支持关键词检索、语义检索、图片检索、跨模态检索等多种检索方式 | 复用现有系统的API网关、权限控制体系 |
| 检索引擎层 | 负责多路召回、融合排序、结果聚合: • 全文检索召回:基于ES倒排索引的关键词匹配 • 向量检索召回:基于ES KNN的向量相似度匹配 • 混合排序:将多路召回结果进行权重融合排序 |
复用现有ES集群的检索能力,无需额外存储组件 |
| 数据层 | 基于现有ES存储,索引中同时包含: • 结构化字段(业务属性、文件类型、解析文本等) • dense_vector字段(文本向量、图片特征向量、音频/视频特征向量) |
完全复用现有解析系统已经落地的ES存储架构 |
支持6大类多模态检索与推理能力,完全覆盖领导要求的所有场景,基于现有ES 8.10+架构即可落地:
| 检索类型 | 功能说明 | 典型场景 | 实现方法 |
|---|---|---|---|
| ### 1. 文本查多模态(最常用) | 用文字提问,系统返回跨模态的综合结果,包括: • 结构化文本答案 • 相关图片、图表、流程图 • 相关音视频片段及字幕 |
• "请解释四级调度架构,并给我配图" • "找出所有关于借贷产品的文档和示意图" • "查找所有和张三相关的合同、身份证、面签视频" |
1. 文本提问生成文本Embedding向量 2. ES混合查询同时召回: • 匹配语义的文本内容 • 匹配语义的图片/音视频特征向量 3. 结果按相关性排序后,按模态分类返回 |
| ### 2. 图片查多模态(图像检索) | 上传一张图片,系统理解图片内容后返回: • 知识库中相似图片 • 对应的文本解释、相关文档、说明书 • 支持图文问答(指着图片提问) |
• 上传一张设备故障图 → 返回设备说明书、故障处理方法 • 上传一张合同截图 → 返回完整合同文档、相关条款说明 • 上传一张身份证照片 → 返回对应的用户信息、关联业务 |
1. 用CLIP多模态模型提取上传图片的特征向量 2. ES向量检索召回相似图片 3. 同时召回和图片内容相关的文本/音视频内容 4. 支持追加文本提问,结合图片内容做联合理解 |
| ### 3. 图文混合查询 | 同时输入文本 + 图片做精细化查询,实现更精准的多模态检索 | • "这张设备图里的XX部件,在知识库中对应哪个型号?" • "这张合同截图里的利率条款,和哪个版本的标准合同一致?" • "图中的这个签名,在哪些其他文档里出现过?" |
1. 分别提取文本Embedding和图片特征向量 2. CLIP模型做跨模态特征融合,生成联合查询向量 3. ES做多路召回后做联合相似度排序 4. 返回和图文组合条件最匹配的结果 |
| ### 4. 音频/视频查询(扩展模态) | 支持音视频模态的检索: • 语音提问,直接检索多模态知识 • 上传视频片段,检索相似视频、相关文档、字幕、关键帧 • 上传音频录音,检索相关内容 |
• 语音提问"上个月的运维故障有哪些?"直接返回结果 • 上传一段1分钟的培训视频片段 → 返回完整培训视频、PPT课件、文字稿 • 上传客户通话录音 → 返回对应业务工单、客户信息、通话记录 |
1. 音频通过ASR模型转写为文本,提取文本向量 2. 视频提取关键帧生成图片特征向量,同时提取音频转写文本 3. ES混合召回相关的文本、图片、音视频内容 4. 语音提问直接走ASR转文本后进入标准检索流程 |
| ### 5. 跨模态理解与推理(真正"多模态"能力) | 不只是简单检索,还能实现多模态内容的理解和推理: • 看图回答复杂问题 • 从图+文多源信息里联合推理 • 把图片信息与知识库文本对齐、关联、解释 |
• 上传流量监控图,提问"这个图里的指标是否异常?异常原因是什么?" • "结合这张财务报表图片和对应的财报文档,分析今年的营收变化原因" • "这张架构图和之前的版本相比,有哪些优化点?" |
1. 先通过检索召回相关的多模态上下文(文本+图片+音视频) 2. 将检索到的所有上下文传给多模态大模型(如Qwen-VL、GPT-4V等) 3. 大模型基于全量上下文做理解和推理,输出推理结果 4. 结果溯源到原始检索到的资料来源 |
| ### 6. 多模态答案生成 | 查询后不只是返回零散的检索结果,还能生成结构化的多模态答案: • 生成配图的文字回答 • 自动生成相关数据的表格+图表 • 生成步骤动图/示意图说明 |
• 查询"系统部署流程" → 返回带流程图、步骤截图的结构化指南 • 查询"Q1业绩情况" → 返回包含数据表格、趋势图的分析报告 • 查询"故障处理方法" → 返回带操作截图、动图演示的步骤说明 |
1. 检索召回相关的文本、图片、表格等素材 2. 大模型基于素材生成结构化的文字回答 3. 自动匹配和内容最相关的图片、图表插入到回答的对应位置 4. 支持生成Markdown/HTML/Word等格式的完整答案文档 |
所有能力完全基于现有ES 8.10+架构实现,不需要对现有存储体系做改造:
graph LR
A[用户多模态输入<br>(文本/图片/语音/视频)] --> B[输入预处理层]
B --> C{输入模态判断}
C -->|文本| D[生成文本Embedding向量]
C -->|图片| E[CLIP模型生成图片特征向量]
C -->|语音/视频| F[ASR转文本 + 关键帧提取向量]
D & E & F --> G[构造ES混合查询请求]
G --> H[ES执行多路召回+自动相关性融合]
H --> I[召回多模态上下文:文本+图片+音视频]
I --> J{是否需要推理/生成?}
J -->|否| K[结构化整理后直接返回结果]
J -->|是| L[多模态大模型推理/答案生成]
L --> K[返回结构化多模态答案]
基于你们当前使用的Elasticsearch 8.10+版本原生的KNN向量检索能力(8.x版本向量检索已GA稳定,相比7.x性能提升300%+),无需额外引入向量数据库:
dense_vector类型字段基于ES 8.10+原生混合查询能力,无需手动做多路召回和权重融合,实现复杂度大幅降低:
graph LR
A[用户检索请求] --> B[构造ES原生混合查询]
B --> C[ES自动执行全文+向量多路召回]
C --> D[ES原生自动相关性融合排序]
D --> E[按业务规则过滤]
E --> F[返回Top100结果给用户]
rank_feature字段自定义业务权重,不需要自己实现多路召回和融合逻辑,性能更优,维护成本更低。| 模态 | 推荐模型 | 向量维度 | 适用场景 |
|---|---|---|---|
| 文本 | 阿里通义千问Embedding / 百度文心Embedding | 768/1024维 | 中文语义检索,金融领域专业词汇适配 |
| 图片 | CLIP-ViT-B/32 金融领域微调版 | 512维 | 证件、合同、票据等图片的特征提取 |
| 音频/视频 | Whisper + 文本Embedding | 768维 | 音频转文本后做向量表征 |
向量检索精度优化:
检索性能优化:
业务适配优化:
阿里云智能开放搜索(OpenSearch)多模态版
腾讯云向量检索服务(VCS)
Elastic官方向量检索方案
分阶段逐步落地,快速产出业务价值,全部功能5周内可上线:
| 实施阶段 | 工作内容 | 时间周期 | 预期效果 | 复用现有能力 |
|---------|----------|----------|----------|-------------|
| 第一阶段:基础检索能力上线 | 1. 基于现有ES向量能力实现文本查多模态功能
2. 接入CLIP模型实现图片查多模态功能
3. 上线统一检索API接口 | 1周 | 支持文本提问返回图文音视频多模态结果,支持上传图片返回相关内容 | 复用现有ES存储、复用解析阶段已生成的向量数据 |
| 第二阶段:进阶检索能力上线 | 1. 实现图文混合查询功能,支持文本+图片联合检索
2. 接入ASR模型实现音频/视频查询功能
3. 支持语音输入提问检索 | 2周 | 支持精细化图文混合查询、音频/视频模态检索,覆盖80%业务场景 | 复用现有解析系统的ASR转写、视频关键帧提取能力 |
| 第三阶段:高级推理能力上线 | 1. 接入多模态大模型(Qwen-VL等开源模型)实现跨模态理解与推理能力
2. 实现多模态答案生成功能,自动生成配图、表格的结构化回答
3. 上线可视化检索结果页面 | 2周 | 支持复杂推理类查询,自动生成多模态结构化答案,覆盖全部业务场景 | 复用现有大模型服务能力,不需要重复部署 |
| 第四阶段:效果持续优化 | 根据业务反馈调整检索排序权重、优化模型参数、扩展支持新的业务场景 | 长期 | 检索准确率和用户满意度持续提升 | - |
| 指标 | 预期值 |
|---|---|
| 基础检索响应时间 | P95 < 200ms(相比7.x版本性能提升50%) |
| 带推理的查询响应时间 | P95 < 2s |
| 语义检索准确率 | ≥92% |
| 图片检索Top10召回率 | ≥95% |
| 图文混合查询准确率 | ≥90% |
| 跨模态推理准确率 | ≥85% |
| 支持并发 | ≥2000 QPS(原生混合查询性能更优) |
| 向量数据规模 | 支持10亿级向量存储(量化压缩后可支持30亿+) |