欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年6月3日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录多模态 RAG 的三种方案方案 1多模态向量直接编码CLIP 类方案 2图片摘要化检索纯摘要参与回答方案 3摘要检索 原图留档工业最常用图文混合文档的检索痛点优化 - 索引构建核心原理技术流程优化 - 检索结果处理核心原理技术流程多模态 RAG 最终方案总结核心原理技术流程多模态 RAG 的三种方案多模态 RAG解决图文混排文档PDF、图表、截图、PPT的检索问答难题依托图片编码 / 图片摘要分化出三类落地架构核心区别在检索对象是原图向量还是图片摘要、生成答案阶段是否传入原始图片。方案 1多模态向量直接编码CLIP 类文本、图片统一转成同空间向量原图入库、直接搜图片。技术流程文档拆分图文→图文分别做多模态 Embedding→同库存储→问题编码跨模态检索→原文 原图送入多模态 LLM 作答。方案 2图片摘要化检索纯摘要参与回答先用多模态大模型把图片翻译成文字摘要只存摘要向量检索、答题全靠摘要不用原图。技术流程提取图片→多模态 LLM 生成图片文本摘要→摘要向量化入库→检索匹配摘要→仅凭摘要 文本回答。方案 3摘要检索 原图留档工业最常用检索用图片摘要提速检索命中后调取原始图片摘要 原图一同送入多模态大模型生成答案是方案 2 优化版。技术流程图片生成摘要→摘要 Embedding 入库原图本地 / 对象存储留存索引→问题检索摘要→命中后拉取原图 摘要→多模态 LLM 结合图文作答。方案一存图向量直接搜图方案二存摘要只靠文字答题方案三搜摘要答题再调原图图文混合文档的检索痛点图文文档检索核心痛点绝大多数配图不能独立表意语义依附图注、标题、前后正文、章节语境直接把图片剥离原文单独做向量编码或单独生成摘要会丢失关键上下文语义造成图片Embedding、图片摘要信息片面最终检索跑偏。图片单独看不懂单独检索就不稳错误处理链路PDF拆分后图文割裂图片脱离原文单独向量化/生成摘要、单独入库丢失图文位置关联与语义绑定是检索失效根源正确优化思路文档解析保留图文排版顺序图片生成摘要后将摘要嵌入所属原文片段摘要作为正文的组成部分参与分块、向量化与检索绑定上下文语义。两种经典方案各自痛点1. 多模态向量方案CLIP等模型仅提取画面视觉特征图片缺少上下文→向量不含业务/文档语义→跨模态检索不准2. 图片摘要方案多模态LLM仅凭画面生成摘要无正文信息→摘要笼统宽泛、缺失专属定义→依托摘要检索命中率低。多模态RAG优化重点≠单独处理图片而是维系图片与文档上下文的关联关系。画面信息完整、表意独立 → 可单独检索图表/插图语义依附正文、图注 → 不可单独检索必须绑定上下文优化 - 索引构建核心原理摒弃孤立给图片建索引的方式基于文档整体语境构建索引。将图文、表格、标题等关联内容整合为整体模块依托完整语义检索解决配图脱离上下文导致的检索不准问题。技术流程1. 解析PDF拆分出标题、文本、表格、图片等结构化元素2. 合并相邻关联元素形成CompositeElement综合文档块保留文档完整结构3. 对综合文档块生成全局文本摘要对摘要做Embedding4. 构建摘要向量索引同时绑定原始文档块映射关系5. 检索时通过摘要匹配精准定位完整图文文档块。优化 - 检索结果处理核心原理放弃图片单独检索同时不丢失图片信息。检索依靠整体文档摘要保证稳定性检索命中文档后将提前生成的图片摘要精准回填到图片对应位置补足图片语义。技术流程1. 离线预处理解析PDF提取图片为每张图片生成专属摘要建立图片ID、原图路径与图片摘要的映射关系提前储备图文信息。2. 在线检索回填1. 用户提问检索文档整体摘要命中完整结构化文档块CompositeElement2. 匹配文档块中的图片ID调取对应图片摘要3. 将摘要精准插回图片原始位置不集中堆砌4. 形成图文融合的增强上下文送入LLM生成答案。多模态 RAG 最终方案总结核心原理文本负责找图片负责补。摒弃图片单独检索、图片摘要单独检索的方式解决图文文档检索不准、信息丢失的问题。核心逻辑检索依靠文档整体语境回答补充图片细节信息。先通过文本、表格、文档整体摘要检索定位到完整的结构化文档块再将提前生成的图片摘要回填到文档原图位置让大模型结合图文完整上下文理解内容、生成答案既规避孤立图片检索的不稳定性又不丢失图片核心信息。技术流程1. 离线阶段构建索引、储备图文信息解析PDF拆分文本、表格、图片等元素将关联元素合并为CompositeElement结构化文档块对文档块的文本、表格生成整体摘要做Embedding后存入向量库绑定与原文档块的映射关系同时通过多模态大模型生成所有图片摘要建立图片ID与图片摘要的映射。最终形成两类存储摘要向量库用于检索、图文资源库用于补充信息。2. 在线阶段检索回填、生成答案用户提问后检索文本/表格摘要索引精准命中对应结构化文档块检测文档块内的图片资源根据图片ID调取对应图片摘要精准回填到图片原始位置形成图文融合的增强上下文最后由通用文本大模型结合完整上下文生成答案。3. 方案核心重点图片摘要不参与主检索仅作为检索后的上下文补充平衡检索稳定性与答案完整性。
大模型|大模型中的多模态RAG
发布时间:2026/6/3 15:37:34
欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年6月3日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录多模态 RAG 的三种方案方案 1多模态向量直接编码CLIP 类方案 2图片摘要化检索纯摘要参与回答方案 3摘要检索 原图留档工业最常用图文混合文档的检索痛点优化 - 索引构建核心原理技术流程优化 - 检索结果处理核心原理技术流程多模态 RAG 最终方案总结核心原理技术流程多模态 RAG 的三种方案多模态 RAG解决图文混排文档PDF、图表、截图、PPT的检索问答难题依托图片编码 / 图片摘要分化出三类落地架构核心区别在检索对象是原图向量还是图片摘要、生成答案阶段是否传入原始图片。方案 1多模态向量直接编码CLIP 类文本、图片统一转成同空间向量原图入库、直接搜图片。技术流程文档拆分图文→图文分别做多模态 Embedding→同库存储→问题编码跨模态检索→原文 原图送入多模态 LLM 作答。方案 2图片摘要化检索纯摘要参与回答先用多模态大模型把图片翻译成文字摘要只存摘要向量检索、答题全靠摘要不用原图。技术流程提取图片→多模态 LLM 生成图片文本摘要→摘要向量化入库→检索匹配摘要→仅凭摘要 文本回答。方案 3摘要检索 原图留档工业最常用检索用图片摘要提速检索命中后调取原始图片摘要 原图一同送入多模态大模型生成答案是方案 2 优化版。技术流程图片生成摘要→摘要 Embedding 入库原图本地 / 对象存储留存索引→问题检索摘要→命中后拉取原图 摘要→多模态 LLM 结合图文作答。方案一存图向量直接搜图方案二存摘要只靠文字答题方案三搜摘要答题再调原图图文混合文档的检索痛点图文文档检索核心痛点绝大多数配图不能独立表意语义依附图注、标题、前后正文、章节语境直接把图片剥离原文单独做向量编码或单独生成摘要会丢失关键上下文语义造成图片Embedding、图片摘要信息片面最终检索跑偏。图片单独看不懂单独检索就不稳错误处理链路PDF拆分后图文割裂图片脱离原文单独向量化/生成摘要、单独入库丢失图文位置关联与语义绑定是检索失效根源正确优化思路文档解析保留图文排版顺序图片生成摘要后将摘要嵌入所属原文片段摘要作为正文的组成部分参与分块、向量化与检索绑定上下文语义。两种经典方案各自痛点1. 多模态向量方案CLIP等模型仅提取画面视觉特征图片缺少上下文→向量不含业务/文档语义→跨模态检索不准2. 图片摘要方案多模态LLM仅凭画面生成摘要无正文信息→摘要笼统宽泛、缺失专属定义→依托摘要检索命中率低。多模态RAG优化重点≠单独处理图片而是维系图片与文档上下文的关联关系。画面信息完整、表意独立 → 可单独检索图表/插图语义依附正文、图注 → 不可单独检索必须绑定上下文优化 - 索引构建核心原理摒弃孤立给图片建索引的方式基于文档整体语境构建索引。将图文、表格、标题等关联内容整合为整体模块依托完整语义检索解决配图脱离上下文导致的检索不准问题。技术流程1. 解析PDF拆分出标题、文本、表格、图片等结构化元素2. 合并相邻关联元素形成CompositeElement综合文档块保留文档完整结构3. 对综合文档块生成全局文本摘要对摘要做Embedding4. 构建摘要向量索引同时绑定原始文档块映射关系5. 检索时通过摘要匹配精准定位完整图文文档块。优化 - 检索结果处理核心原理放弃图片单独检索同时不丢失图片信息。检索依靠整体文档摘要保证稳定性检索命中文档后将提前生成的图片摘要精准回填到图片对应位置补足图片语义。技术流程1. 离线预处理解析PDF提取图片为每张图片生成专属摘要建立图片ID、原图路径与图片摘要的映射关系提前储备图文信息。2. 在线检索回填1. 用户提问检索文档整体摘要命中完整结构化文档块CompositeElement2. 匹配文档块中的图片ID调取对应图片摘要3. 将摘要精准插回图片原始位置不集中堆砌4. 形成图文融合的增强上下文送入LLM生成答案。多模态 RAG 最终方案总结核心原理文本负责找图片负责补。摒弃图片单独检索、图片摘要单独检索的方式解决图文文档检索不准、信息丢失的问题。核心逻辑检索依靠文档整体语境回答补充图片细节信息。先通过文本、表格、文档整体摘要检索定位到完整的结构化文档块再将提前生成的图片摘要回填到文档原图位置让大模型结合图文完整上下文理解内容、生成答案既规避孤立图片检索的不稳定性又不丢失图片核心信息。技术流程1. 离线阶段构建索引、储备图文信息解析PDF拆分文本、表格、图片等元素将关联元素合并为CompositeElement结构化文档块对文档块的文本、表格生成整体摘要做Embedding后存入向量库绑定与原文档块的映射关系同时通过多模态大模型生成所有图片摘要建立图片ID与图片摘要的映射。最终形成两类存储摘要向量库用于检索、图文资源库用于补充信息。2. 在线阶段检索回填、生成答案用户提问后检索文本/表格摘要索引精准命中对应结构化文档块检测文档块内的图片资源根据图片ID调取对应图片摘要精准回填到图片原始位置形成图文融合的增强上下文最后由通用文本大模型结合完整上下文生成答案。3. 方案核心重点图片摘要不参与主检索仅作为检索后的上下文补充平衡检索稳定性与答案完整性。