大模型学习打卡 Day4主题多模态 RAG 完整流程内嵌补充复用已有 RAG 知识重点吃透图文混合检索一、基础回顾普通文本 RAG仅对纯文本做向量化、建库、检索、问答。多模态 RAG支持文本 图片混合知识库实现图文结合检索与问答是当前企业落地主流方案。二、整体业务流程5 大核心步骤1. 数据入库文档解析处理图文混合资料图文文档、带配图的 PDF、图片 说明文本等。纯文本部分直接文本预处理图片部分结合 OCR 提取图中文字同时用图像 Encoder 生成图像 Embedding。2. 分块Chunk不再只分割文本文本段落正常切分图片 对应说明文字绑定为一个块保证语义完整避免图文拆分失联。3. 多模态向量化依托 CLIP 类模型文本块 → 文本 Embedding图像 / 图文块 → 统一维度的多模态 Embedding所有向量存入多模态向量库。4. 用户提问 问题向量化提问分两类纯文本提问生成文本 Embedding图文提问发图 文字整体生成多模态 Embedding。5. 检索 召回 重排 问答向量库相似度检索召回图文相关内容重排模型优化排序过滤低相关结果将「用户问题 召回图文上下文」拼接 Prompt 输入多模态大模型模型结合图文信息输出最终答案。三、文本 RAG 与 多模态 RAG 核心差异对比项传统文本 RAG多模态 RAG数据源仅纯文本文本、图片、图文混合文档向量化方式文本 Embedding多模态 EmbeddingCLIP 等向量库纯文本向量库多模态混合向量库检索形式文搜文文搜图、图搜文、图文互搜依赖模型文本 Embedding 文本大模型多模态 Embedding 图文大模型 OCR四、项目常见问题 简易优化方案图文块拆分混乱→ 拆分时强制图片与相邻文字绑定不单独切分图片。图文匹配不准→ 统一使用 CLIP 系列模型做向量化保证向量空间一致。图片细节答不出→ 图片优先走 OCR 提取文字再结合图像特征双重检索。大模型学习打卡 Day5主题PDF 扫描件 / 表格文档解析实战内嵌补充练习前端 PDF 预览、文件解析对接思路一、场景说明日常项目中两类高频文档原生 PDF可直接复制文字属于纯文本类用普通文本分块 Embedding 即可处理扫描件 PDF / 图片 PDF本质是一张张图片无法直接提取文字必须搭配 OCR 解析含表格的文档普通 OCR 易打乱行列结构需要专用表格识别能力。二、完整解析流程1. 文档区分第一步判断类型原生 PDF用 PyPDF2/pdfplumber 直接提取文本扫描 PDF先把 PDF 逐页转为图片再调用 OCR 识别带表格文档优先使用支持表格解析的 OCR如 PaddleOCR保留行列格式。2. 扫描 PDF 标准处理链路PDF 分页 → 页面转图片 → 图像预处理去噪、二值化 → OCR 识别文字 / 表格 → 文本清洗 → 分块入库3. 表格文档处理要点识别表格的行、列、单元格坐标与内容解析为结构化数据JSON/Markdown 表格保留原有格式入库时将表格整体作为一个 Chunk避免行列拆分导致语义错乱。三、常用工具栈项目实战首选PDF 处理pdfplumber解析原生 PDF、表格友好、pdf2imagePDF 转图片OCR 工具PaddleOCR内置表格识别中文 表格场景最优格式整理识别后转为 Markdown 表格适配大模型问答四、前端对接思路补充任务结合你 Vue 技术栈梳理文件上传 预览 解析全链路1. 前端页面使用 input[typefile] 限制上传格式.pdf、图片格式集成 PDF 预览组件如 vue-pdf实现上传后在线预览2. 接口交互前端将文件以二进制 / FormData 形式传给后端接口后端完成 PDF 解析、OCR 处理后返回文本 / 表格结构化数据3. 交互优化大文件 / 扫描件解析耗时久增加加载动画、进度提示识别失败给出异常提示支持重新上传。五、常见问题与优化扫描 PDF 解析慢分页异步处理分批返回结果表格格式错乱强制用专用表格 OCR不使用通用文字 OCR大体积 PDF前端做分片上传避免请求超时。Chunk 核心概念通俗讲解Chunk 数据分块 把一大段内容切成一小段一小段 就这么简单一、Chunk 到底是什么Chunk 块 / 片段 在大模型 RAG 里一篇长文章一份长 PDF一个大表格一段很长的文字不能整个丢给模型模型装不下、也检索不准。所以要切成一段一段每一段就叫一个 Chunk块。二、为什么要切超直白解释模型一次读不完长文章检索时只需要召回相关的一小段不用整篇返回回答更精准就像你看书 你不会把整本书背下来只会看某一页、某一段。 那一段就是 Chunk。三、多模态里的 Chunk 特别重要图文场景必须遵守图片 它下面的文字 一个 Chunk不能分开例子【图片猫】【文字这是一只小猫在睡觉】这两个必须绑在一起成为 一个 chunk。不然检索的时候图是图、文是文对不上回答就会错。四、一句话终极总结Chunk 把长内容切成小段方便模型读取、检索、回答。大模型学习打卡——多模态刷题 高频考点整理内嵌补充整理面试题型与标准答题话术一、知识体系梳理核心考点汇总1. 基础概念考点多模态模型可同时处理文本、图像、音视频等多种数据区别于仅处理文字的单模态模型图像预处理去噪清除画面杂点干扰、二值化像素转为纯黑 / 纯白强化文字轮廓OCR光学字符识别专门从图片 / 扫描件中提取文字。2. 核心模型考点CLIP经典图文匹配模型由文本编码器 图像编码器组成输出同维度向量用于跨模态检索、以文搜图 / 以图搜文无 OCR 能力。3. 多模态 Embedding延伸自文本 Embedding可将图像、文本转为同一向量空间的向量实现图文相似度计算。4. 多模态 RAG 全流程文档解析 → 图文绑定分块 → 多模态向量化 → 向量库存储 → 问题向量化 → 检索召回 → 重排优化 → 大模型问答关键规则图片必须和对应文字绑定为一个 Chunk依赖组件OCR 多模态 Embedding 重排模型 多模态大模型。5. PDF 文档解析考点原生 PDF直接用pdfplumber/PyPDF2提取文本扫描 PDFPDF 转图片 → 图像预处理 → OCR 识别 → 文本清洗表格文档优先 PaddleOCR 解析输出 Markdown 表格保留结构。6. 前端对接考点文件上传限制格式PDF 预览常用vue-pdf大文件采用分片上传长耗时任务增加加载 / 进度提示。二、高频面试话术提炼直接背诵问什么是多模态大模型答多模态大模型能够同时处理文本、图像等多种类型数据打通不同数据形态的语义关联相比纯文本模型更贴合人类视觉 语言的感知方式。问CLIP 的作用是什么答CLIP 包含文本和图像两个编码器将图文映射到同一向量空间主要用于图文语义匹配、跨模态检索它不擅长图像文字识别需要搭配 OCR 使用。问多模态 RAG 和传统文本 RAG 有什么区别答数据源上传统 RAG 仅支持纯文本多模态 RAG 兼容图片、图文混合文档技术链路额外增加了 OCR、图像编码、多模态向量化等环节。问扫描版 PDF 如何做 RAG 入库答先将 PDF 逐页转为图片做去噪、二值化预处理再用 OCR 提取文字并清洗之后按照图文规则分块、向量化存入多模态向量库。大模型学习打卡——多模态全章节复盘内嵌补充梳理知识框架查漏补缺一、整体知识框架梳理1. 核心概念区分单模态仅处理文本多模态支持文本、图像、PDF 等多种数据形态。OCR提取图片 / 扫描件内文字图像预处理去噪除杂点、二值化像素转为黑白。Embedding把内容转为向量文本 Embedding 只处理文字多模态 Embedding可统一图文向量空间。2. 核心模型CLIP双编码器结构文本 图像主打图文语义匹配、跨模态检索无 OCR 能力。多模态大模型接收图文输入完成理解、问答、内容生成。3. 两大文档解析流程原生 PDF → 工具直接提取文本 → 分块扫描 PDF → 转图片 → 图像预处理 → OCR 识别 → 文本清洗 → 分块4. 多模态 RAG 标准流程文档解析 → 图文绑定分块 (Chunk) → 多模态向量化 → 存入多模态向量库 → 问题向量化 → 向量检索召回 → 重排优化排序 → 多模态大模型问答5. 前端配套能力你的差异化优势文件上传限制格式大文件使用分片上传防超时PDF 预览使用vue-pdf组件交互优化解析 / 推理过程增加加载提示、异常报错处理。6. 高频踩坑 优化点图文分块严禁图片与对应文字拆分表格解析优先保留行列结构转为 Markdown 格式图文匹配不准统一使用 CLIP 做向量化保证向量空间一致图片细节识别弱OCR 提取文字 图像特征双重补充。|注文档部分内容可能由 AI 生成
大模型多模态RAG学习打卡汇总笔记Day4-day7
发布时间:2026/6/1 10:18:02
大模型学习打卡 Day4主题多模态 RAG 完整流程内嵌补充复用已有 RAG 知识重点吃透图文混合检索一、基础回顾普通文本 RAG仅对纯文本做向量化、建库、检索、问答。多模态 RAG支持文本 图片混合知识库实现图文结合检索与问答是当前企业落地主流方案。二、整体业务流程5 大核心步骤1. 数据入库文档解析处理图文混合资料图文文档、带配图的 PDF、图片 说明文本等。纯文本部分直接文本预处理图片部分结合 OCR 提取图中文字同时用图像 Encoder 生成图像 Embedding。2. 分块Chunk不再只分割文本文本段落正常切分图片 对应说明文字绑定为一个块保证语义完整避免图文拆分失联。3. 多模态向量化依托 CLIP 类模型文本块 → 文本 Embedding图像 / 图文块 → 统一维度的多模态 Embedding所有向量存入多模态向量库。4. 用户提问 问题向量化提问分两类纯文本提问生成文本 Embedding图文提问发图 文字整体生成多模态 Embedding。5. 检索 召回 重排 问答向量库相似度检索召回图文相关内容重排模型优化排序过滤低相关结果将「用户问题 召回图文上下文」拼接 Prompt 输入多模态大模型模型结合图文信息输出最终答案。三、文本 RAG 与 多模态 RAG 核心差异对比项传统文本 RAG多模态 RAG数据源仅纯文本文本、图片、图文混合文档向量化方式文本 Embedding多模态 EmbeddingCLIP 等向量库纯文本向量库多模态混合向量库检索形式文搜文文搜图、图搜文、图文互搜依赖模型文本 Embedding 文本大模型多模态 Embedding 图文大模型 OCR四、项目常见问题 简易优化方案图文块拆分混乱→ 拆分时强制图片与相邻文字绑定不单独切分图片。图文匹配不准→ 统一使用 CLIP 系列模型做向量化保证向量空间一致。图片细节答不出→ 图片优先走 OCR 提取文字再结合图像特征双重检索。大模型学习打卡 Day5主题PDF 扫描件 / 表格文档解析实战内嵌补充练习前端 PDF 预览、文件解析对接思路一、场景说明日常项目中两类高频文档原生 PDF可直接复制文字属于纯文本类用普通文本分块 Embedding 即可处理扫描件 PDF / 图片 PDF本质是一张张图片无法直接提取文字必须搭配 OCR 解析含表格的文档普通 OCR 易打乱行列结构需要专用表格识别能力。二、完整解析流程1. 文档区分第一步判断类型原生 PDF用 PyPDF2/pdfplumber 直接提取文本扫描 PDF先把 PDF 逐页转为图片再调用 OCR 识别带表格文档优先使用支持表格解析的 OCR如 PaddleOCR保留行列格式。2. 扫描 PDF 标准处理链路PDF 分页 → 页面转图片 → 图像预处理去噪、二值化 → OCR 识别文字 / 表格 → 文本清洗 → 分块入库3. 表格文档处理要点识别表格的行、列、单元格坐标与内容解析为结构化数据JSON/Markdown 表格保留原有格式入库时将表格整体作为一个 Chunk避免行列拆分导致语义错乱。三、常用工具栈项目实战首选PDF 处理pdfplumber解析原生 PDF、表格友好、pdf2imagePDF 转图片OCR 工具PaddleOCR内置表格识别中文 表格场景最优格式整理识别后转为 Markdown 表格适配大模型问答四、前端对接思路补充任务结合你 Vue 技术栈梳理文件上传 预览 解析全链路1. 前端页面使用 input[typefile] 限制上传格式.pdf、图片格式集成 PDF 预览组件如 vue-pdf实现上传后在线预览2. 接口交互前端将文件以二进制 / FormData 形式传给后端接口后端完成 PDF 解析、OCR 处理后返回文本 / 表格结构化数据3. 交互优化大文件 / 扫描件解析耗时久增加加载动画、进度提示识别失败给出异常提示支持重新上传。五、常见问题与优化扫描 PDF 解析慢分页异步处理分批返回结果表格格式错乱强制用专用表格 OCR不使用通用文字 OCR大体积 PDF前端做分片上传避免请求超时。Chunk 核心概念通俗讲解Chunk 数据分块 把一大段内容切成一小段一小段 就这么简单一、Chunk 到底是什么Chunk 块 / 片段 在大模型 RAG 里一篇长文章一份长 PDF一个大表格一段很长的文字不能整个丢给模型模型装不下、也检索不准。所以要切成一段一段每一段就叫一个 Chunk块。二、为什么要切超直白解释模型一次读不完长文章检索时只需要召回相关的一小段不用整篇返回回答更精准就像你看书 你不会把整本书背下来只会看某一页、某一段。 那一段就是 Chunk。三、多模态里的 Chunk 特别重要图文场景必须遵守图片 它下面的文字 一个 Chunk不能分开例子【图片猫】【文字这是一只小猫在睡觉】这两个必须绑在一起成为 一个 chunk。不然检索的时候图是图、文是文对不上回答就会错。四、一句话终极总结Chunk 把长内容切成小段方便模型读取、检索、回答。大模型学习打卡——多模态刷题 高频考点整理内嵌补充整理面试题型与标准答题话术一、知识体系梳理核心考点汇总1. 基础概念考点多模态模型可同时处理文本、图像、音视频等多种数据区别于仅处理文字的单模态模型图像预处理去噪清除画面杂点干扰、二值化像素转为纯黑 / 纯白强化文字轮廓OCR光学字符识别专门从图片 / 扫描件中提取文字。2. 核心模型考点CLIP经典图文匹配模型由文本编码器 图像编码器组成输出同维度向量用于跨模态检索、以文搜图 / 以图搜文无 OCR 能力。3. 多模态 Embedding延伸自文本 Embedding可将图像、文本转为同一向量空间的向量实现图文相似度计算。4. 多模态 RAG 全流程文档解析 → 图文绑定分块 → 多模态向量化 → 向量库存储 → 问题向量化 → 检索召回 → 重排优化 → 大模型问答关键规则图片必须和对应文字绑定为一个 Chunk依赖组件OCR 多模态 Embedding 重排模型 多模态大模型。5. PDF 文档解析考点原生 PDF直接用pdfplumber/PyPDF2提取文本扫描 PDFPDF 转图片 → 图像预处理 → OCR 识别 → 文本清洗表格文档优先 PaddleOCR 解析输出 Markdown 表格保留结构。6. 前端对接考点文件上传限制格式PDF 预览常用vue-pdf大文件采用分片上传长耗时任务增加加载 / 进度提示。二、高频面试话术提炼直接背诵问什么是多模态大模型答多模态大模型能够同时处理文本、图像等多种类型数据打通不同数据形态的语义关联相比纯文本模型更贴合人类视觉 语言的感知方式。问CLIP 的作用是什么答CLIP 包含文本和图像两个编码器将图文映射到同一向量空间主要用于图文语义匹配、跨模态检索它不擅长图像文字识别需要搭配 OCR 使用。问多模态 RAG 和传统文本 RAG 有什么区别答数据源上传统 RAG 仅支持纯文本多模态 RAG 兼容图片、图文混合文档技术链路额外增加了 OCR、图像编码、多模态向量化等环节。问扫描版 PDF 如何做 RAG 入库答先将 PDF 逐页转为图片做去噪、二值化预处理再用 OCR 提取文字并清洗之后按照图文规则分块、向量化存入多模态向量库。大模型学习打卡——多模态全章节复盘内嵌补充梳理知识框架查漏补缺一、整体知识框架梳理1. 核心概念区分单模态仅处理文本多模态支持文本、图像、PDF 等多种数据形态。OCR提取图片 / 扫描件内文字图像预处理去噪除杂点、二值化像素转为黑白。Embedding把内容转为向量文本 Embedding 只处理文字多模态 Embedding可统一图文向量空间。2. 核心模型CLIP双编码器结构文本 图像主打图文语义匹配、跨模态检索无 OCR 能力。多模态大模型接收图文输入完成理解、问答、内容生成。3. 两大文档解析流程原生 PDF → 工具直接提取文本 → 分块扫描 PDF → 转图片 → 图像预处理 → OCR 识别 → 文本清洗 → 分块4. 多模态 RAG 标准流程文档解析 → 图文绑定分块 (Chunk) → 多模态向量化 → 存入多模态向量库 → 问题向量化 → 向量检索召回 → 重排优化排序 → 多模态大模型问答5. 前端配套能力你的差异化优势文件上传限制格式大文件使用分片上传防超时PDF 预览使用vue-pdf组件交互优化解析 / 推理过程增加加载提示、异常报错处理。6. 高频踩坑 优化点图文分块严禁图片与对应文字拆分表格解析优先保留行列结构转为 Markdown 格式图文匹配不准统一使用 CLIP 做向量化保证向量空间一致图片细节识别弱OCR 提取文字 图像特征双重补充。|注文档部分内容可能由 AI 生成