以为国企面试水，就吹吹自己熟悉 RAG，结果被问完整RAG的链路，面试官冷冷一句：“你之前项目是怎么跑通的？”，我的小手已经无处安放。

发布时间：2026/6/25 13:07:17

前段时间有个录友跟我复盘面试他面了某国企的 RAG 开发岗。面试官也不跟你客气直接问核心链路。面试官“你说你做了 RAG那完整流程到底是什么”他“就是把文档向量化用户提问检索然后给模型生成答案……”面试官“离线阶段你做了什么在线阶段从查询到回答经过哪几步”他愣了“就是加载文档、切片、存库…… 然后查。”面试官“清洗、元数据、混合检索、重排、上下文构建这些在你链路里放在哪”他的小手开始无处安放了。。。RAG 的完整链路是什么今天我们就把它讲清楚。一、RAG 完整链路总览我们先用一张图把整条链路建立起来整条链路分两阶段离线侧负责把知识存进去在线侧负责把相关知识找出来、组合出答案。二、离线阶段原始文档RAG 系统的知识来源可以多种多样PDF 报告、Word 文档、网页、Markdown 文件、数据库记录、邮件……不同格式的文档需要不同的解析方式这一步通常叫做文档加载Document Loading。值得注意的是这一步的质量直接影响整个系统的上限。如果原始文档本身是扫描件或排版混乱的 PDF解析出来的文本就会充满噪声后续所有环节都会受损。Garbage in, garbage out在 RAG 里体现得非常明显。文档处理清洗与预处理解析出来的原始文本往往不能直接用需要做一轮清洗去掉页眉页脚、无意义的格式符号、重复内容识别并保留文档的标题结构过滤掉表格乱码、图片占位符等。这一步看起来琐碎但在实际项目里文档预处理往往是工程量最大、最容易被低估的部分。切片Chunking清洗好的文档不能整篇塞进向量库需要切成更小的片段chunk。这是 RAG 系统里设计决策最多的一个环节直接影响后续检索的精准度。为什么要切原因很直接一篇 20 页的文档用户的问题可能只和其中的某一段相关。如果把整篇文档作为一个单元存储和检索要么检索粒度太粗命中了整篇但相关内容被淹没要么上下文太长放不进模型或者注意力被稀释。切多大合适这没有通用答案需要根据文档类型、模型的上下文窗口、业务问题的颗粒度来决定。文章9会专门深入讲 Chunking 的策略这里先知道它是关键环节即可。向量化Embedding切好的每个 chunk都需要通过 Embedding 模型转换成一个向量一个高维浮点数数组这个向量代表了这段文字的语义。向量化的关键点是用户问题和文档 chunk 必须用同一个 Embedding 模型来处理这样两者的向量才处于同一个语义空间相似度计算才有意义。同时还需要存储对应的元数据这个 chunk 来自哪份文档、原文在哪一页、文档的创建时间等。元数据在过滤检索结果时非常重要比如只看最近三个月的文档这类需求就需要依赖元数据来实现。存入向量数据库向量和元数据分别存入向量数据库如 Milvus、Weaviate、Chroma、Pinecone 等和普通数据库/文档存储。向量数据库的核心能力是近似最近邻搜索ANN能在数百万向量中毫秒级找到与查询向量最相似的 top-K 结果。三、在线阶段下面这张图单独展示在线检索链路的各个环节以及常见的优化分叉点Query 处理用户的原始问题不一定适合直接用来检索。有几个常见的预处理手段Query 改写把口语化的问题转成更适合检索的形式或者把一个复杂问题拆解成几个子问题分别检索。比如我们公司的报销流程和上限分别是什么可以拆成两个独立的检索任务。Query 扩展对问题做同义词扩展提高召回覆盖面避免因为用词差异漏掉相关文档。这些步骤都是可选的优化基础实现可以先跳过。检索RetrievalQuery 向量化之后和向量库里存储的所有 chunk 向量做相似度计算通常用余弦相似度召回相似度最高的 top-K 个 chunk。K 的取值通常在 3-10 之间。更完整的实现会做混合检索Hybrid Search同时跑向量检索语义相似和关键词检索精确匹配如 BM25然后把两路结果合并。这样能兼顾语义理解和关键词精准匹配两种优势。Rerank精排初步召回的 top-K 结果相关性不一定都高。Rerank 是在召回之后加一道精排用一个专门的 Cross-Encoder 模型对Query, Chunk对打分按新分数重新排序只保留最相关的几条。Rerank 是 RAG 优化里最常见也最有效的手段之一代价是多一次模型推理的延迟。上下文构建Context把最终筛选出来的 chunk加上元数据来源文档、页码等按一定格式拼装成上下文连同用户的原始问题一起构建出最终的 Prompt送给生成模型。Prompt 的结构通常是★你是一个企业知识库助手。请根据以下资料回答问题如果资料中没有相关信息请明确说明。参考资料[来源产品手册第3页]…chunk 内容…用户问题我们的退款政策是什么生成Generation生成模型LLM接收完整 Prompt基于提供的上下文生成回答。关键点是 Prompt 里要有明确的引导指令——让模型优先依据资料回答而不是依赖自身参数知识并要求在答案里标注来源。四、这条链路的核心认知理解了完整链路可以归纳几个关键认知每个环节都影响最终质量但影响方式不同。Chunking 决定了能不能检索到相关内容Embedding 模型决定了语义理解是否准确Rerank 决定了召回的 top 结果是否真的最相关Prompt 设计决定了模型是否能正确利用上下文。优化 RAG 本质上是找到当前系统的薄弱环节而不是无差别地调参。离线和在线必须保持一致。Embedding 模型、文本清洗方式离线建索引时怎么做在线检索时就必须一样。如果索引是用 A 模型建的检索时用 B 模型两边的向量空间不同相似度计算完全失效。检索的目标是精准不是全面。召回 top-3 的高质量 chunk通常比召回 top-20 的混杂结果更好。上下文越长模型注意力越分散信噪比越低。五、常见误区误区 1“RAG 向量检索”向量检索只是在线侧的一个步骤。完整的 RAG 系统还包括文档解析、Chunking 策略、Embedding 选型、元数据管理、Rerank、Prompt 设计等一系列工程工作缺少任何一环都会拖累整体效果。误区 2“只要模型够强Chunking 随便切就行”Chunking 是 RAG 里最底层的基础设施模型再强如果检索到的 chunk 要么太短语义不完整要么太长相关信息被稀释生成质量都会大打折扣。模型能力无法弥补检索质量的缺陷。误区 3“Rerank 一定要加”Rerank 是有代价的多一次模型调用意味着更高的延迟和成本。对于对实时性要求高、或者文档量较小的场景精准的 Embedding 合理的 top-K 往往已经足够。先评估是否真的需要再决定是否加。六、面试可能怎么问Q请描述一个完整的 RAG 链路。参考思路分两段回答。离线侧文档加载 → 清洗预处理 → Chunking → Embedding 向量化 → 存入向量数据库同时存元数据。在线侧用户 Query →可选 Query 改写→ Query 向量化→向量检索召回 top-K →可选混合检索、Rerank 精排→ 拼装 Context Prompt → LLM 生成 → 输出带来源引用的答案。QRAG 里哪些环节最影响效果参考思路离线侧最关键的是 Chunking 策略决定检索粒度和 Embedding 模型选型决定语义理解质量。在线侧最关键的是 Prompt 设计引导模型正确利用上下文。其中文档质量是前提再好的系统也处理不好乱码和结构混乱的输入。QEmbedding 模型在离线和在线需要保持一致吗为什么参考思路必须一致。Embedding 模型把文本映射到一个高维向量空间不同模型的向量空间是不同的。离线用 A 模型建的索引在线用 B 模型生成 Query 向量两者处于不同空间余弦相似度计算完全失去意义检索结果会非常混乱。七、结语RAG 不是一个算法而是一条工程流水线。离线侧解决知识怎么进去在线侧解决知识怎么找出来、怎么用起来。把这条链路想清楚了后续讨论任何一个具体的优化点——Chunking 怎么切、Embedding 怎么选、Rerank 怎么用——都有了明确的落脚位置。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Amazon Bedrock 生产级落地指南：免运维、可组合、生产就绪的生成式AI架构

1. 项目概述：为什么 Bedrock 不是又一个“AI 控制台”，而是你真正能落地的生成式 AI 生产线我第一次在客户现场部署 Bedrock 是去年夏天。那是一家做跨境电商业务的中型公司，他们想给客服系统加个“自动摘要工单”功能——不是炫技的聊天机器…

2026/6/25 13:06:57 阅读更多

深度解析Tinke：NDS游戏逆向工程的架构哲学与技术实现

深度解析Tinke：NDS游戏逆向工程的架构哲学与技术实现【免费下载链接】tinke Viewer and editor for files of NDS games 项目地址: https://gitcode.com/gh_mirrors/ti/tinke Tinke作为一款专注于任天堂DS游戏文件查看与编辑的开源工具，其设计理…

2026/6/25 13:05:53 阅读更多

Ice：解决macOS菜单栏管理难题的专业级解决方案

Ice：解决macOS菜单栏管理难题的专业级解决方案【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice macOS菜单栏管理一直是个痛点：随着应用安装增多，菜单栏图标堆积如山…

2026/6/25 13:05:10 阅读更多

LoRA与QLoRA在LangGraph企业工作流中的实战应用

1. 项目概述：当大模型落地撞上算力墙，LoRA和QLoRA不是“降级方案”，而是企业级LangGraph工作流的精密节流阀在去年给某头部金融客户做智能投研助手升级时，我亲眼看着一个7B参数的Llama-3模型在本地GPU集群上跑LangGraph流程——光…

2026/6/25 17:30:51 阅读更多

GitHub Desktop一键汉化终极指南：让英文界面秒变中文

GitHub Desktop一键汉化终极指南：让英文界面秒变中文【免费下载链接】GitHubDesktop2Chinese GithubDesktop语言本地化(汉化)工具【GitHub桌面客户端中文汉化】项目地址: https://gitcode.com/gh_mirrors/gi/GitHubDesktop2Chinese 还在为GitHub Desktop的…

2026/6/25 17:29:09 阅读更多

AI如何赋能重卡设计：结构优化与热管理仿真实操指南

1. 这不是科幻，是重卡设计室里正在发生的静默革命“Can Artificial Intelligence Help To Unlock New Designs for the Heavy Trucks Manufacturing Industry?”——这个标题乍看像学术会议上的提问，但在我过去十二年跑遍国内六大整车厂、三十七家核心零…

2026/6/25 17:28:48 阅读更多

安全RAIN RFID与AES加密技术如何重塑边境通关效率与安全

1. 边境通关的“效率”与“安全”悖论作为一名在物联网与身份识别领域摸爬滚打了十几年的技术老兵，我见过太多项目在“效率”和“安全”这两个看似对立的目标之间左右为难。边境通关，就是这样一个典型的“高压”场景。想象一下，在繁忙的国际机…

2026/6/25 17:28:48 阅读更多

WordPress安全插件身份认证绕过漏洞深度剖析与修复指南

1. 项目概述：一次针对WordPress安全插件的深度漏洞剖析最近在安全圈里，CVE-2024-10924这个编号被频繁提及，它直指WordPress生态中一款相当流行的安全插件——Really Simple Security。这个漏洞被定性为“身份认证绕过”，听起来就…

2026/6/25 17:28:06 阅读更多

PHP开发服务器源码泄露漏洞CVE-2021-21703深度剖析与安全加固

1. 项目概述：一次典型的开发环境安全警钟那天下午，我正在为一个老项目做兼容性升级，本地跑的是PHP 7.4.21内置的开发服务器。一个不经意的请求，让我在浏览器里看到了本不该出现的源代码。那一刻，后背有点发凉——这不…

2026/6/25 17:27:45 阅读更多

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

上半年跳槽，面了十几家公司。说句实话，不是能力不行，是面试现场太容易崩了。明明准备了一周，面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。后来开始试市面上的AI面试辅助工具。前前后后装了5款，踩…

2026/6/25 11:52:18 阅读更多

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发：创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列字数: 约 1400 字…

2026/6/25 11:52:18 阅读更多

PEER模型：多模型协作范式的工程化实践指南

1. 项目概述：这不是又一个大模型，而是一次协作范式的重构 “META’s PEER: A Collaborative Language Model”这个标题里藏着一个被多数人忽略的关键词—— Collaborative （协作）。它不是在说“模型更大了”“参数更多了”“训练…

2026/6/25 11:54:48 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/25 1:04:34 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/25 1:04:45 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 1:04:41 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/25 12:27:19 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/25 12:27:19 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/25 12:27:19 阅读更多

相关文章

Amazon Bedrock 生产级落地指南：免运维、可组合、生产就绪的生成式AI架构

深度解析Tinke：NDS游戏逆向工程的架构哲学与技术实现

Ice：解决macOS菜单栏管理难题的专业级解决方案

LoRA与QLoRA在LangGraph企业工作流中的实战应用

GitHub Desktop一键汉化终极指南：让英文界面秒变中文

AI如何赋能重卡设计：结构优化与热管理仿真实操指南

安全RAIN RFID与AES加密技术如何重塑边境通关效率与安全

WordPress安全插件身份认证绕过漏洞深度剖析与修复指南

PHP开发服务器源码泄露漏洞CVE-2021-21703深度剖析与安全加固

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

PEER模型：多模型协作范式的工程化实践指南

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因