大模型多模态RAG学习打卡汇总笔记Day4-day7

发布时间：2026/6/1 10:18:02

大模型学习打卡 Day4主题多模态 RAG 完整流程内嵌补充复用已有 RAG 知识重点吃透图文混合检索一、基础回顾普通文本 RAG仅对纯文本做向量化、建库、检索、问答。多模态 RAG支持文本图片混合知识库实现图文结合检索与问答是当前企业落地主流方案。二、整体业务流程5 大核心步骤1. 数据入库文档解析处理图文混合资料图文文档、带配图的 PDF、图片说明文本等。纯文本部分直接文本预处理图片部分结合 OCR 提取图中文字同时用图像 Encoder 生成图像 Embedding。2. 分块Chunk不再只分割文本文本段落正常切分图片对应说明文字绑定为一个块保证语义完整避免图文拆分失联。3. 多模态向量化依托 CLIP 类模型文本块 → 文本 Embedding图像 / 图文块 → 统一维度的多模态 Embedding所有向量存入多模态向量库。4. 用户提问问题向量化提问分两类纯文本提问生成文本 Embedding图文提问发图文字整体生成多模态 Embedding。5. 检索召回重排问答向量库相似度检索召回图文相关内容重排模型优化排序过滤低相关结果将「用户问题召回图文上下文」拼接 Prompt 输入多模态大模型模型结合图文信息输出最终答案。三、文本 RAG 与多模态 RAG 核心差异对比项传统文本 RAG多模态 RAG数据源仅纯文本文本、图片、图文混合文档向量化方式文本 Embedding多模态 EmbeddingCLIP 等向量库纯文本向量库多模态混合向量库检索形式文搜文文搜图、图搜文、图文互搜依赖模型文本 Embedding 文本大模型多模态 Embedding 图文大模型 OCR四、项目常见问题简易优化方案图文块拆分混乱→ 拆分时强制图片与相邻文字绑定不单独切分图片。图文匹配不准→ 统一使用 CLIP 系列模型做向量化保证向量空间一致。图片细节答不出→ 图片优先走 OCR 提取文字再结合图像特征双重检索。大模型学习打卡 Day5主题PDF 扫描件 / 表格文档解析实战内嵌补充练习前端 PDF 预览、文件解析对接思路一、场景说明日常项目中两类高频文档原生 PDF可直接复制文字属于纯文本类用普通文本分块 Embedding 即可处理扫描件 PDF / 图片 PDF本质是一张张图片无法直接提取文字必须搭配 OCR 解析含表格的文档普通 OCR 易打乱行列结构需要专用表格识别能力。二、完整解析流程1. 文档区分第一步判断类型原生 PDF用 PyPDF2/pdfplumber 直接提取文本扫描 PDF先把 PDF 逐页转为图片再调用 OCR 识别带表格文档优先使用支持表格解析的 OCR如 PaddleOCR保留行列格式。2. 扫描 PDF 标准处理链路PDF 分页 → 页面转图片 → 图像预处理去噪、二值化 → OCR 识别文字 / 表格 → 文本清洗 → 分块入库3. 表格文档处理要点识别表格的行、列、单元格坐标与内容解析为结构化数据JSON/Markdown 表格保留原有格式入库时将表格整体作为一个 Chunk避免行列拆分导致语义错乱。三、常用工具栈项目实战首选PDF 处理pdfplumber解析原生 PDF、表格友好、pdf2imagePDF 转图片OCR 工具PaddleOCR内置表格识别中文表格场景最优格式整理识别后转为 Markdown 表格适配大模型问答四、前端对接思路补充任务结合你 Vue 技术栈梳理文件上传预览解析全链路1. 前端页面使用 input[typefile] 限制上传格式.pdf、图片格式集成 PDF 预览组件如 vue-pdf实现上传后在线预览2. 接口交互前端将文件以二进制 / FormData 形式传给后端接口后端完成 PDF 解析、OCR 处理后返回文本 / 表格结构化数据3. 交互优化大文件 / 扫描件解析耗时久增加加载动画、进度提示识别失败给出异常提示支持重新上传。五、常见问题与优化扫描 PDF 解析慢分页异步处理分批返回结果表格格式错乱强制用专用表格 OCR不使用通用文字 OCR大体积 PDF前端做分片上传避免请求超时。Chunk 核心概念通俗讲解Chunk 数据分块把一大段内容切成一小段一小段就这么简单一、Chunk 到底是什么Chunk 块 / 片段在大模型 RAG 里一篇长文章一份长 PDF一个大表格一段很长的文字不能整个丢给模型模型装不下、也检索不准。所以要切成一段一段每一段就叫一个 Chunk块。二、为什么要切超直白解释模型一次读不完长文章检索时只需要召回相关的一小段不用整篇返回回答更精准就像你看书你不会把整本书背下来只会看某一页、某一段。那一段就是 Chunk。三、多模态里的 Chunk 特别重要图文场景必须遵守图片它下面的文字一个 Chunk不能分开例子【图片猫】【文字这是一只小猫在睡觉】这两个必须绑在一起成为一个 chunk。不然检索的时候图是图、文是文对不上回答就会错。四、一句话终极总结Chunk 把长内容切成小段方便模型读取、检索、回答。大模型学习打卡——多模态刷题高频考点整理内嵌补充整理面试题型与标准答题话术一、知识体系梳理核心考点汇总1. 基础概念考点多模态模型可同时处理文本、图像、音视频等多种数据区别于仅处理文字的单模态模型图像预处理去噪清除画面杂点干扰、二值化像素转为纯黑 / 纯白强化文字轮廓OCR光学字符识别专门从图片 / 扫描件中提取文字。2. 核心模型考点CLIP经典图文匹配模型由文本编码器图像编码器组成输出同维度向量用于跨模态检索、以文搜图 / 以图搜文无 OCR 能力。3. 多模态 Embedding延伸自文本 Embedding可将图像、文本转为同一向量空间的向量实现图文相似度计算。4. 多模态 RAG 全流程文档解析 → 图文绑定分块 → 多模态向量化 → 向量库存储 → 问题向量化 → 检索召回 → 重排优化 → 大模型问答关键规则图片必须和对应文字绑定为一个 Chunk依赖组件OCR 多模态 Embedding 重排模型多模态大模型。5. PDF 文档解析考点原生 PDF直接用pdfplumber/PyPDF2提取文本扫描 PDFPDF 转图片 → 图像预处理 → OCR 识别 → 文本清洗表格文档优先 PaddleOCR 解析输出 Markdown 表格保留结构。6. 前端对接考点文件上传限制格式PDF 预览常用vue-pdf大文件采用分片上传长耗时任务增加加载 / 进度提示。二、高频面试话术提炼直接背诵问什么是多模态大模型答多模态大模型能够同时处理文本、图像等多种类型数据打通不同数据形态的语义关联相比纯文本模型更贴合人类视觉语言的感知方式。问CLIP 的作用是什么答CLIP 包含文本和图像两个编码器将图文映射到同一向量空间主要用于图文语义匹配、跨模态检索它不擅长图像文字识别需要搭配 OCR 使用。问多模态 RAG 和传统文本 RAG 有什么区别答数据源上传统 RAG 仅支持纯文本多模态 RAG 兼容图片、图文混合文档技术链路额外增加了 OCR、图像编码、多模态向量化等环节。问扫描版 PDF 如何做 RAG 入库答先将 PDF 逐页转为图片做去噪、二值化预处理再用 OCR 提取文字并清洗之后按照图文规则分块、向量化存入多模态向量库。大模型学习打卡——多模态全章节复盘内嵌补充梳理知识框架查漏补缺一、整体知识框架梳理1. 核心概念区分单模态仅处理文本多模态支持文本、图像、PDF 等多种数据形态。OCR提取图片 / 扫描件内文字图像预处理去噪除杂点、二值化像素转为黑白。Embedding把内容转为向量文本 Embedding 只处理文字多模态 Embedding可统一图文向量空间。2. 核心模型CLIP双编码器结构文本图像主打图文语义匹配、跨模态检索无 OCR 能力。多模态大模型接收图文输入完成理解、问答、内容生成。3. 两大文档解析流程原生 PDF → 工具直接提取文本 → 分块扫描 PDF → 转图片 → 图像预处理 → OCR 识别 → 文本清洗 → 分块4. 多模态 RAG 标准流程文档解析 → 图文绑定分块 (Chunk) → 多模态向量化 → 存入多模态向量库 → 问题向量化 → 向量检索召回 → 重排优化排序 → 多模态大模型问答5. 前端配套能力你的差异化优势文件上传限制格式大文件使用分片上传防超时PDF 预览使用vue-pdf组件交互优化解析 / 推理过程增加加载提示、异常报错处理。6. 高频踩坑优化点图文分块严禁图片与对应文字拆分表格解析优先保留行列结构转为 Markdown 格式图文匹配不准统一使用 CLIP 做向量化保证向量空间一致图片细节识别弱OCR 提取文字图像特征双重补充。|注文档部分内容可能由 AI 生成

Win7绝唱：手把手教你离线打包Python 3.7.8 + Playwright 1.15.3完整环境（附浏览器包迁移）

Win7绝唱：手把手构建Python 3.7.8与Playwright 1.15.3离线环境全指南在工业控制、金融终端等特殊场景中，仍有大量Windows 7设备因系统兼容性要求而不得不继续服役。当这些设备处于严格的内网隔离环境时，如何部署Python自动化工具链成为技术人…

2026/6/1 10:17:41 阅读更多

QMCDecode终极指南：如何在macOS上快速解密QQ音乐加密格式

QMCDecode终极指南：如何在macOS上快速解密QQ音乐加密格式【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac，qmc0,qmc3转mp3, mflac,mflac0等转flac)，仅支持macOS，可自动识别到QQ音乐下载目录，默…

2026/6/1 10:17:41 阅读更多

STM32F103C8T6软I²C驱动AT24C16 EEPROM的完整Keil工程，含页写/随机读/多地址支持

本文还有配套的精品资源，点击获取简介：基于STM32F103C8T6最小系统板的IC通信工程，采用PB6/PB7软件模拟IC协议，直接驱动AT24C16串行EEPROM芯片。支持标准字节读写、16字节页写入、任意地址随机读取，通过A0/A1/A2引脚…

2026/6/1 10:17:41 阅读更多

AI翻译实战指南：从Transformer原理到多场景应用与质量提升

1. 项目概述：当AI成为你的随身翻译官“翻译”这个词，听起来有点老派，对吧？它总让人联想到厚重的词典、专业的译员和漫长的等待。但如果你告诉我，现在一段复杂的英文技术文档，或者一段语速飞快的法语播客&am…

2026/6/1 10:58:41 阅读更多

2026最新b站字幕导出方法：手把手教你一键提取字幕

你是不是也遇到过这种情况：刷到一条干货满满的B站视频，里面的讲解一句句都想记下来，可手动一个字一个字敲字幕，敲到一半就头大；想把课程视频的双语字幕保存下来反复学习，却发现B站根本没有"下载字幕&q…

2026/6/1 10:58:41 阅读更多

IOTA 学习笔记（五）：对象模型是理解 IOTA 的关键

前几期我们先从 IOTA 的历史讲起，理解了 Tangle、DAG、Coordinator、Coordicide、Stardust 和 Rebased。上一期开始进入当前 IOTA 架构，提到了网络层、共识层、执行层、状态层和开发工具链。从这一期开始，我们要真正接触当前 IOTA 开发中最重…

2026/6/1 10:57:40 阅读更多

视频硬字幕提取难题终结者：87种语言本地OCR全攻略

视频硬字幕提取难题终结者：87种语言本地OCR全攻略【免费下载链接】video-subtitle-extractor 视频硬字幕提取，生成srt文件。无需申请第三方API，本地实现文本识别。基于深度学习的视频字幕提取框架，包含字幕区域检测、字幕内容提取…

2026/6/1 10:56:59 阅读更多

GetQzonehistory专业实践：掌握高效QQ空间说说备份与数据归档技巧

GetQzonehistory专业实践：掌握高效QQ空间说说备份与数据归档技巧【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 在数字时代，QQ空间承载着无数人的青春记忆和成长…

2026/6/1 10:56:59 阅读更多

代码+经济？

本文是我从接触编程到如今成为一个高中生的第一篇在csdn上的文章，本文既是一篇自我介绍又是一篇项目的一个展示吧，初来乍到，还望多多包涵。我本人呢，对经济类事务是十分感兴趣的，的确，有一部分家庭原因&am…

2026/6/1 10:56:59 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

Win7绝唱：手把手教你离线打包Python 3.7.8 + Playwright 1.15.3完整环境（附浏览器包迁移）

QMCDecode终极指南：如何在macOS上快速解密QQ音乐加密格式

STM32F103C8T6软I²C驱动AT24C16 EEPROM的完整Keil工程，含页写/随机读/多地址支持

AI翻译实战指南：从Transformer原理到多场景应用与质量提升

2026最新b站字幕导出方法：手把手教你一键提取字幕

IOTA 学习笔记（五）：对象模型是理解 IOTA 的关键

视频硬字幕提取难题终结者：87种语言本地OCR全攻略

GetQzonehistory专业实践：掌握高效QQ空间说说备份与数据归档技巧

代码+经济？

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因