大模型|大模型中的多模态RAG

发布时间：2026/6/3 15:37:34

欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年6月3日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录多模态 RAG 的三种方案方案 1多模态向量直接编码CLIP 类方案 2图片摘要化检索纯摘要参与回答方案 3摘要检索原图留档工业最常用图文混合文档的检索痛点优化 - 索引构建核心原理技术流程优化 - 检索结果处理核心原理技术流程多模态 RAG 最终方案总结核心原理技术流程多模态 RAG 的三种方案多模态 RAG解决图文混排文档PDF、图表、截图、PPT的检索问答难题依托图片编码 / 图片摘要分化出三类落地架构核心区别在检索对象是原图向量还是图片摘要、生成答案阶段是否传入原始图片。方案 1多模态向量直接编码CLIP 类文本、图片统一转成同空间向量原图入库、直接搜图片。技术流程文档拆分图文→图文分别做多模态 Embedding→同库存储→问题编码跨模态检索→原文原图送入多模态 LLM 作答。方案 2图片摘要化检索纯摘要参与回答先用多模态大模型把图片翻译成文字摘要只存摘要向量检索、答题全靠摘要不用原图。技术流程提取图片→多模态 LLM 生成图片文本摘要→摘要向量化入库→检索匹配摘要→仅凭摘要文本回答。方案 3摘要检索原图留档工业最常用检索用图片摘要提速检索命中后调取原始图片摘要原图一同送入多模态大模型生成答案是方案 2 优化版。技术流程图片生成摘要→摘要 Embedding 入库原图本地 / 对象存储留存索引→问题检索摘要→命中后拉取原图摘要→多模态 LLM 结合图文作答。方案一存图向量直接搜图方案二存摘要只靠文字答题方案三搜摘要答题再调原图图文混合文档的检索痛点图文文档检索核心痛点绝大多数配图不能独立表意语义依附图注、标题、前后正文、章节语境直接把图片剥离原文单独做向量编码或单独生成摘要会丢失关键上下文语义造成图片Embedding、图片摘要信息片面最终检索跑偏。图片单独看不懂单独检索就不稳错误处理链路PDF拆分后图文割裂图片脱离原文单独向量化/生成摘要、单独入库丢失图文位置关联与语义绑定是检索失效根源正确优化思路文档解析保留图文排版顺序图片生成摘要后将摘要嵌入所属原文片段摘要作为正文的组成部分参与分块、向量化与检索绑定上下文语义。两种经典方案各自痛点1. 多模态向量方案CLIP等模型仅提取画面视觉特征图片缺少上下文→向量不含业务/文档语义→跨模态检索不准2. 图片摘要方案多模态LLM仅凭画面生成摘要无正文信息→摘要笼统宽泛、缺失专属定义→依托摘要检索命中率低。多模态RAG优化重点≠单独处理图片而是维系图片与文档上下文的关联关系。画面信息完整、表意独立 → 可单独检索图表/插图语义依附正文、图注 → 不可单独检索必须绑定上下文优化 - 索引构建核心原理摒弃孤立给图片建索引的方式基于文档整体语境构建索引。将图文、表格、标题等关联内容整合为整体模块依托完整语义检索解决配图脱离上下文导致的检索不准问题。技术流程1. 解析PDF拆分出标题、文本、表格、图片等结构化元素2. 合并相邻关联元素形成CompositeElement综合文档块保留文档完整结构3. 对综合文档块生成全局文本摘要对摘要做Embedding4. 构建摘要向量索引同时绑定原始文档块映射关系5. 检索时通过摘要匹配精准定位完整图文文档块。优化 - 检索结果处理核心原理放弃图片单独检索同时不丢失图片信息。检索依靠整体文档摘要保证稳定性检索命中文档后将提前生成的图片摘要精准回填到图片对应位置补足图片语义。技术流程1. 离线预处理解析PDF提取图片为每张图片生成专属摘要建立图片ID、原图路径与图片摘要的映射关系提前储备图文信息。2. 在线检索回填1. 用户提问检索文档整体摘要命中完整结构化文档块CompositeElement2. 匹配文档块中的图片ID调取对应图片摘要3. 将摘要精准插回图片原始位置不集中堆砌4. 形成图文融合的增强上下文送入LLM生成答案。多模态 RAG 最终方案总结核心原理文本负责找图片负责补。摒弃图片单独检索、图片摘要单独检索的方式解决图文文档检索不准、信息丢失的问题。核心逻辑检索依靠文档整体语境回答补充图片细节信息。先通过文本、表格、文档整体摘要检索定位到完整的结构化文档块再将提前生成的图片摘要回填到文档原图位置让大模型结合图文完整上下文理解内容、生成答案既规避孤立图片检索的不稳定性又不丢失图片核心信息。技术流程1. 离线阶段构建索引、储备图文信息解析PDF拆分文本、表格、图片等元素将关联元素合并为CompositeElement结构化文档块对文档块的文本、表格生成整体摘要做Embedding后存入向量库绑定与原文档块的映射关系同时通过多模态大模型生成所有图片摘要建立图片ID与图片摘要的映射。最终形成两类存储摘要向量库用于检索、图文资源库用于补充信息。2. 在线阶段检索回填、生成答案用户提问后检索文本/表格摘要索引精准命中对应结构化文档块检测文档块内的图片资源根据图片ID调取对应图片摘要精准回填到图片原始位置形成图文融合的增强上下文最后由通用文本大模型结合完整上下文生成答案。3. 方案核心重点图片摘要不参与主检索仅作为检索后的上下文补充平衡检索稳定性与答案完整性。

告别手动配置！用这个Shell脚本在openEuler 22.03上全自动部署Oracle 19C RAC集群

全自动部署Oracle 19C RAC集群：openEuler环境下的DevOps实践在当今企业级数据库部署中，Oracle RAC（Real Application Clusters）因其高可用性和可扩展性而广受欢迎。然而，传统的手动部署过程复杂且容易出错，…

2026/6/3 15:37:33 阅读更多

OData V4.01 完整查询语法速查表

适用版本：OData V4.0 / V4.01（主流企业级标准）核心原则：所有系统查询选项均以 $ 开头，多个选项用 & 分隔，大小写敏感；URL 中特殊字符需进行百分号编码一、基础查询选项速查查询选项语法功能说明标准示例 $select $select=属性1,属性2,... 指定返回的属性…

2026/6/3 15:36:30 阅读更多

STM32F407 Keil工程：纯软件S曲线调速，驱动两相步进电机不丢步

本文还有配套的精品资源，点击获取简介：直接可用的STM32F407标准HAL库Keil工程，实现步进电机平滑S型加减速控制。核心逻辑在main.c中完成，通过定时器PWM输出精准脉冲，算法按时间分段动态计算每一步的延时间隔&#…

2026/6/3 15:36:10 阅读更多

5分钟终极指南：用DeepL Chrome插件实现专业级网页翻译体验

5分钟终极指南：用DeepL Chrome插件实现专业级网页翻译体验【免费下载链接】deepl-chrome-extension A DeepL Translator Chrome extension 项目地址: https://gitcode.com/gh_mirrors/de/deepl-chrome-extension 你是否曾因语言障碍而错过重要的外文信息&am…

2026/6/3 16:31:14 阅读更多

零成本航模模拟器方案：用普通遥控器+音频线玩转飞行模拟

1. 项目概述与核心价值如果你和我一样，是个喜欢折腾无人机、固定翼航模的爱好者，那你肯定明白一个道理：新手的第一架飞机，大概率不是飞丢就是摔坏。实体航模的试错成本太高了，一套入门级的设备加上飞机，几百…

2026/6/3 16:31:14 阅读更多

电路设计实战指南：从原理到PCB，掌握电子制作全流程

1. 项目概述：从图纸到实物的电子世界构建之旅电路设计，听起来像是实验室里穿着白大褂的工程师才做的事，离我们很远。但仔细想想，你手机里的每一帧画面、智能音箱的每一次应答、甚至厨房里定时器的“嘀嗒”声，背后都是一…

2026/6/3 16:30:53 阅读更多

基于Arduino与超声波传感器的低成本社交距离警示器设计与实现

1. 项目概述与核心思路最近在整理工作室的旧项目时，翻出了一个几年前做的“社交距离警示器”原型。当时正值特殊时期，大家对于保持物理距离格外关注。市面上虽然有一些成品设备，但要么价格不菲，要么功能单一。作为一个喜欢动手的硬…

2026/6/3 16:30:30 阅读更多

UAV Log Viewer：无人机数据分析终极免费指南

UAV Log Viewer：无人机数据分析终极免费指南【免费下载链接】UAVLogViewer An online viewer for UAV log files 项目地址: https://gitcode.com/gh_mirrors/ua/UAVLogViewer 想要从无人机飞行日志中挖掘宝贵信息？UAV Log Viewer正是你需要的免费…

2026/6/3 16:30:30 阅读更多

终极免费方案：qmcdump三步解锁QQ音乐加密文件

终极免费方案：qmcdump三步解锁QQ音乐加密文件【免费下载链接】qmcdump 一个简单的QQ音乐解码（qmcflac/qmc0/qmc3 转 flac/mp3），仅为个人学习参考用。项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 你是否在QQ音乐…

2026/6/3 16:30:09 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

告别手动配置！用这个Shell脚本在openEuler 22.03上全自动部署Oracle 19C RAC集群

OData V4.01 完整查询语法速查表

STM32F407 Keil工程：纯软件S曲线调速，驱动两相步进电机不丢步

5分钟终极指南：用DeepL Chrome插件实现专业级网页翻译体验

零成本航模模拟器方案：用普通遥控器+音频线玩转飞行模拟

电路设计实战指南：从原理到PCB，掌握电子制作全流程

基于Arduino与超声波传感器的低成本社交距离警示器设计与实现

UAV Log Viewer：无人机数据分析终极免费指南

终极免费方案：qmcdump三步解锁QQ音乐加密文件

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因