前段时间有个录友跟我复盘面试他面了某国企的 RAG 开发岗。面试官也不跟你客气直接问核心链路。 面试官“你说你做了 RAG那完整流程到底是什么”他“就是把文档向量化用户提问检索然后给模型生成答案……”面试官“离线阶段你做了什么在线阶段从查询到回答经过哪几步”他愣了“就是加载文档、切片、存库…… 然后查。”面试官“清洗、元数据、混合检索、重排、上下文构建这些在你链路里放在哪”他的小手开始无处安放了。。。RAG 的完整链路是什么今天我们就把它讲清楚。一、RAG 完整链路总览我们先用一张图把整条链路建立起来整条链路分两阶段离线侧负责把知识存进去在线侧负责把相关知识找出来、组合出答案。二、离线阶段原始文档RAG 系统的知识来源可以多种多样PDF 报告、Word 文档、网页、Markdown 文件、数据库记录、邮件……不同格式的文档需要不同的解析方式这一步通常叫做文档加载Document Loading。值得注意的是这一步的质量直接影响整个系统的上限。如果原始文档本身是扫描件或排版混乱的 PDF解析出来的文本就会充满噪声后续所有环节都会受损。Garbage in, garbage out在 RAG 里体现得非常明显。文档处理清洗与预处理解析出来的原始文本往往不能直接用需要做一轮清洗去掉页眉页脚、无意义的格式符号、重复内容识别并保留文档的标题结构过滤掉表格乱码、图片占位符等。这一步看起来琐碎但在实际项目里文档预处理往往是工程量最大、最容易被低估的部分。切片Chunking清洗好的文档不能整篇塞进向量库需要切成更小的片段chunk。这是 RAG 系统里设计决策最多的一个环节直接影响后续检索的精准度。为什么要切原因很直接一篇 20 页的文档用户的问题可能只和其中的某一段相关。如果把整篇文档作为一个单元存储和检索要么检索粒度太粗命中了整篇但相关内容被淹没要么上下文太长放不进模型或者注意力被稀释。切多大合适这没有通用答案需要根据文档类型、模型的上下文窗口、业务问题的颗粒度来决定。文章9会专门深入讲 Chunking 的策略这里先知道它是关键环节即可。向量化Embedding切好的每个 chunk都需要通过 Embedding 模型转换成一个向量一个高维浮点数数组这个向量代表了这段文字的语义。向量化的关键点是用户问题和文档 chunk 必须用同一个 Embedding 模型来处理这样两者的向量才处于同一个语义空间相似度计算才有意义。同时还需要存储对应的元数据这个 chunk 来自哪份文档、原文在哪一页、文档的创建时间等。元数据在过滤检索结果时非常重要比如只看最近三个月的文档这类需求就需要依赖元数据来实现。存入向量数据库向量和元数据分别存入向量数据库如 Milvus、Weaviate、Chroma、Pinecone 等和普通数据库/文档存储。向量数据库的核心能力是近似最近邻搜索ANN能在数百万向量中毫秒级找到与查询向量最相似的 top-K 结果。三、在线阶段下面这张图单独展示在线检索链路的各个环节以及常见的优化分叉点Query 处理用户的原始问题不一定适合直接用来检索。有几个常见的预处理手段Query 改写把口语化的问题转成更适合检索的形式或者把一个复杂问题拆解成几个子问题分别检索。比如我们公司的报销流程和上限分别是什么可以拆成两个独立的检索任务。Query 扩展对问题做同义词扩展提高召回覆盖面避免因为用词差异漏掉相关文档。这些步骤都是可选的优化基础实现可以先跳过。检索RetrievalQuery 向量化之后和向量库里存储的所有 chunk 向量做相似度计算通常用余弦相似度召回相似度最高的 top-K 个 chunk。K 的取值通常在 3-10 之间。更完整的实现会做混合检索Hybrid Search同时跑向量检索语义相似和关键词检索精确匹配如 BM25然后把两路结果合并。这样能兼顾语义理解和关键词精准匹配两种优势。Rerank精排初步召回的 top-K 结果相关性不一定都高。Rerank 是在召回之后加一道精排用一个专门的 Cross-Encoder 模型对Query, Chunk对打分按新分数重新排序只保留最相关的几条。Rerank 是 RAG 优化里最常见也最有效的手段之一代价是多一次模型推理的延迟。上下文构建Context把最终筛选出来的 chunk加上元数据来源文档、页码等按一定格式拼装成上下文连同用户的原始问题一起构建出最终的 Prompt送给生成模型。Prompt 的结构通常是★你是一个企业知识库助手。请根据以下资料回答问题如果资料中没有相关信息请明确说明。参考资料[来源产品手册第3页]…chunk 内容…用户问题我们的退款政策是什么生成Generation生成模型LLM接收完整 Prompt基于提供的上下文生成回答。关键点是 Prompt 里要有明确的引导指令——让模型优先依据资料回答而不是依赖自身参数知识并要求在答案里标注来源。四、这条链路的核心认知理解了完整链路可以归纳几个关键认知每个环节都影响最终质量但影响方式不同。Chunking 决定了能不能检索到相关内容Embedding 模型决定了语义理解是否准确Rerank 决定了召回的 top 结果是否真的最相关Prompt 设计决定了模型是否能正确利用上下文。优化 RAG 本质上是找到当前系统的薄弱环节而不是无差别地调参。离线和在线必须保持一致。Embedding 模型、文本清洗方式离线建索引时怎么做在线检索时就必须一样。如果索引是用 A 模型建的检索时用 B 模型两边的向量空间不同相似度计算完全失效。检索的目标是精准不是全面。召回 top-3 的高质量 chunk通常比召回 top-20 的混杂结果更好。上下文越长模型注意力越分散信噪比越低。五、常见误区误区 1“RAG 向量检索”向量检索只是在线侧的一个步骤。完整的 RAG 系统还包括文档解析、Chunking 策略、Embedding 选型、元数据管理、Rerank、Prompt 设计等一系列工程工作缺少任何一环都会拖累整体效果。误区 2“只要模型够强Chunking 随便切就行”Chunking 是 RAG 里最底层的基础设施模型再强如果检索到的 chunk 要么太短语义不完整要么太长相关信息被稀释生成质量都会大打折扣。模型能力无法弥补检索质量的缺陷。误区 3“Rerank 一定要加”Rerank 是有代价的多一次模型调用意味着更高的延迟和成本。对于对实时性要求高、或者文档量较小的场景精准的 Embedding 合理的 top-K 往往已经足够。先评估是否真的需要再决定是否加。六、面试可能怎么问Q请描述一个完整的 RAG 链路。参考思路分两段回答。离线侧文档加载 → 清洗预处理 → Chunking → Embedding 向量化 → 存入向量数据库同时存元数据。在线侧用户 Query →可选 Query 改写→ Query 向量化→向量检索召回 top-K →可选混合检索、Rerank 精排→ 拼装 Context Prompt → LLM 生成 → 输出带来源引用的答案。QRAG 里哪些环节最影响效果参考思路离线侧最关键的是 Chunking 策略决定检索粒度和 Embedding 模型选型决定语义理解质量。在线侧最关键的是 Prompt 设计引导模型正确利用上下文。其中文档质量是前提再好的系统也处理不好乱码和结构混乱的输入。QEmbedding 模型在离线和在线需要保持一致吗为什么参考思路必须一致。Embedding 模型把文本映射到一个高维向量空间不同模型的向量空间是不同的。离线用 A 模型建的索引在线用 B 模型生成 Query 向量两者处于不同空间余弦相似度计算完全失去意义检索结果会非常混乱。七、结语RAG 不是一个算法而是一条工程流水线。离线侧解决知识怎么进去在线侧解决知识怎么找出来、怎么用起来。把这条链路想清楚了后续讨论任何一个具体的优化点——Chunking 怎么切、Embedding 怎么选、Rerank 怎么用——都有了明确的落脚位置。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
以为国企面试水,就吹吹自己熟悉 RAG,结果被问完整RAG的链路,面试官冷冷一句:“你之前项目是怎么跑通的?”,我的小手已经无处安放。
发布时间:2026/6/25 13:07:17
前段时间有个录友跟我复盘面试他面了某国企的 RAG 开发岗。面试官也不跟你客气直接问核心链路。 面试官“你说你做了 RAG那完整流程到底是什么”他“就是把文档向量化用户提问检索然后给模型生成答案……”面试官“离线阶段你做了什么在线阶段从查询到回答经过哪几步”他愣了“就是加载文档、切片、存库…… 然后查。”面试官“清洗、元数据、混合检索、重排、上下文构建这些在你链路里放在哪”他的小手开始无处安放了。。。RAG 的完整链路是什么今天我们就把它讲清楚。一、RAG 完整链路总览我们先用一张图把整条链路建立起来整条链路分两阶段离线侧负责把知识存进去在线侧负责把相关知识找出来、组合出答案。二、离线阶段原始文档RAG 系统的知识来源可以多种多样PDF 报告、Word 文档、网页、Markdown 文件、数据库记录、邮件……不同格式的文档需要不同的解析方式这一步通常叫做文档加载Document Loading。值得注意的是这一步的质量直接影响整个系统的上限。如果原始文档本身是扫描件或排版混乱的 PDF解析出来的文本就会充满噪声后续所有环节都会受损。Garbage in, garbage out在 RAG 里体现得非常明显。文档处理清洗与预处理解析出来的原始文本往往不能直接用需要做一轮清洗去掉页眉页脚、无意义的格式符号、重复内容识别并保留文档的标题结构过滤掉表格乱码、图片占位符等。这一步看起来琐碎但在实际项目里文档预处理往往是工程量最大、最容易被低估的部分。切片Chunking清洗好的文档不能整篇塞进向量库需要切成更小的片段chunk。这是 RAG 系统里设计决策最多的一个环节直接影响后续检索的精准度。为什么要切原因很直接一篇 20 页的文档用户的问题可能只和其中的某一段相关。如果把整篇文档作为一个单元存储和检索要么检索粒度太粗命中了整篇但相关内容被淹没要么上下文太长放不进模型或者注意力被稀释。切多大合适这没有通用答案需要根据文档类型、模型的上下文窗口、业务问题的颗粒度来决定。文章9会专门深入讲 Chunking 的策略这里先知道它是关键环节即可。向量化Embedding切好的每个 chunk都需要通过 Embedding 模型转换成一个向量一个高维浮点数数组这个向量代表了这段文字的语义。向量化的关键点是用户问题和文档 chunk 必须用同一个 Embedding 模型来处理这样两者的向量才处于同一个语义空间相似度计算才有意义。同时还需要存储对应的元数据这个 chunk 来自哪份文档、原文在哪一页、文档的创建时间等。元数据在过滤检索结果时非常重要比如只看最近三个月的文档这类需求就需要依赖元数据来实现。存入向量数据库向量和元数据分别存入向量数据库如 Milvus、Weaviate、Chroma、Pinecone 等和普通数据库/文档存储。向量数据库的核心能力是近似最近邻搜索ANN能在数百万向量中毫秒级找到与查询向量最相似的 top-K 结果。三、在线阶段下面这张图单独展示在线检索链路的各个环节以及常见的优化分叉点Query 处理用户的原始问题不一定适合直接用来检索。有几个常见的预处理手段Query 改写把口语化的问题转成更适合检索的形式或者把一个复杂问题拆解成几个子问题分别检索。比如我们公司的报销流程和上限分别是什么可以拆成两个独立的检索任务。Query 扩展对问题做同义词扩展提高召回覆盖面避免因为用词差异漏掉相关文档。这些步骤都是可选的优化基础实现可以先跳过。检索RetrievalQuery 向量化之后和向量库里存储的所有 chunk 向量做相似度计算通常用余弦相似度召回相似度最高的 top-K 个 chunk。K 的取值通常在 3-10 之间。更完整的实现会做混合检索Hybrid Search同时跑向量检索语义相似和关键词检索精确匹配如 BM25然后把两路结果合并。这样能兼顾语义理解和关键词精准匹配两种优势。Rerank精排初步召回的 top-K 结果相关性不一定都高。Rerank 是在召回之后加一道精排用一个专门的 Cross-Encoder 模型对Query, Chunk对打分按新分数重新排序只保留最相关的几条。Rerank 是 RAG 优化里最常见也最有效的手段之一代价是多一次模型推理的延迟。上下文构建Context把最终筛选出来的 chunk加上元数据来源文档、页码等按一定格式拼装成上下文连同用户的原始问题一起构建出最终的 Prompt送给生成模型。Prompt 的结构通常是★你是一个企业知识库助手。请根据以下资料回答问题如果资料中没有相关信息请明确说明。参考资料[来源产品手册第3页]…chunk 内容…用户问题我们的退款政策是什么生成Generation生成模型LLM接收完整 Prompt基于提供的上下文生成回答。关键点是 Prompt 里要有明确的引导指令——让模型优先依据资料回答而不是依赖自身参数知识并要求在答案里标注来源。四、这条链路的核心认知理解了完整链路可以归纳几个关键认知每个环节都影响最终质量但影响方式不同。Chunking 决定了能不能检索到相关内容Embedding 模型决定了语义理解是否准确Rerank 决定了召回的 top 结果是否真的最相关Prompt 设计决定了模型是否能正确利用上下文。优化 RAG 本质上是找到当前系统的薄弱环节而不是无差别地调参。离线和在线必须保持一致。Embedding 模型、文本清洗方式离线建索引时怎么做在线检索时就必须一样。如果索引是用 A 模型建的检索时用 B 模型两边的向量空间不同相似度计算完全失效。检索的目标是精准不是全面。召回 top-3 的高质量 chunk通常比召回 top-20 的混杂结果更好。上下文越长模型注意力越分散信噪比越低。五、常见误区误区 1“RAG 向量检索”向量检索只是在线侧的一个步骤。完整的 RAG 系统还包括文档解析、Chunking 策略、Embedding 选型、元数据管理、Rerank、Prompt 设计等一系列工程工作缺少任何一环都会拖累整体效果。误区 2“只要模型够强Chunking 随便切就行”Chunking 是 RAG 里最底层的基础设施模型再强如果检索到的 chunk 要么太短语义不完整要么太长相关信息被稀释生成质量都会大打折扣。模型能力无法弥补检索质量的缺陷。误区 3“Rerank 一定要加”Rerank 是有代价的多一次模型调用意味着更高的延迟和成本。对于对实时性要求高、或者文档量较小的场景精准的 Embedding 合理的 top-K 往往已经足够。先评估是否真的需要再决定是否加。六、面试可能怎么问Q请描述一个完整的 RAG 链路。参考思路分两段回答。离线侧文档加载 → 清洗预处理 → Chunking → Embedding 向量化 → 存入向量数据库同时存元数据。在线侧用户 Query →可选 Query 改写→ Query 向量化→向量检索召回 top-K →可选混合检索、Rerank 精排→ 拼装 Context Prompt → LLM 生成 → 输出带来源引用的答案。QRAG 里哪些环节最影响效果参考思路离线侧最关键的是 Chunking 策略决定检索粒度和 Embedding 模型选型决定语义理解质量。在线侧最关键的是 Prompt 设计引导模型正确利用上下文。其中文档质量是前提再好的系统也处理不好乱码和结构混乱的输入。QEmbedding 模型在离线和在线需要保持一致吗为什么参考思路必须一致。Embedding 模型把文本映射到一个高维向量空间不同模型的向量空间是不同的。离线用 A 模型建的索引在线用 B 模型生成 Query 向量两者处于不同空间余弦相似度计算完全失去意义检索结果会非常混乱。七、结语RAG 不是一个算法而是一条工程流水线。离线侧解决知识怎么进去在线侧解决知识怎么找出来、怎么用起来。把这条链路想清楚了后续讨论任何一个具体的优化点——Chunking 怎么切、Embedding 怎么选、Rerank 怎么用——都有了明确的落脚位置。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】