深入理解 RAG 技术原理：检索生成

发布时间：2026/5/27 22:57:08

本文聚焦 RAG 的第二阶段——检索生成。这是用户提问时实时发生的链路接收用户问题、检索相关知识、将知识注入上下文、生成最终答案。每一步都有大量优化空间。一、查询改写Query Rewriting用户的原始问题往往不是最佳检索查询。在将问题送入检索引擎之前先对其进行改写和增强能显著提升召回质量。1.1 为什么需要改写以 TMC 差旅管理系统为例用户的问题天然存在歧义和模糊性用户原问题问题改写后“那个单子怎么批”缺少单据编号和类型“出差申请单 TR001 的审批流程是什么需要哪些审批节点”“超了怎么办”缺少上下文不知道什么超了“发票结算时支付金额大于发票金额超额部分怎么处理”“它的额度是多少”多轮对话中的指代消解结合上文技术部员工北京出差“技术部员工北京出差的住宿标准额度是多少”1.2 核心改写技术多查询生成Multi-Query从不同角度生成多个查询变体分别检索后融合结果适合复杂多方面问题。原问题TR001 能批吗生成变体 1. 出差申请单 TR001 是否符合审批条件 2. TR001 的出差预算是否在部门限额之内 3. TR001 的审批流程当前处于哪个节点子问题分解Decomposition将复杂问题拆分为可独立检索的子查询。原问题TR001 和 TR002 哪个审批更快预算额度分别剩多少分解子问题1TR001 的审批进度和当前节点子问题2TR002 的审批进度和当前节点子问题3TR001 对应部门的剩余预算额度子问题4TR002 对应部门的剩余预算额度Step-Back Prompting生成更抽象的后退问题从更宏观的层面检索背景知识。原问题技术部员工张三去北京出差 3 天住宿费 2000 元能全报吗后退问题技术部员工出差住宿报销的标准和上限是什么1.3 HyDE假设性文档嵌入HyDE 是经 SIGIR 2025 LiveRAG Challenge 验证的高效技术先让 LLM 根据用户问题生成一份假设性的理想答案再用这份答案的向量去检索。为什么有效用户问题通常很短5-15 个词而知识库中的文档长得多数百词。短 query 和长文档的向量在空间中处于不同区域直接匹配效果差。假设答案模仿了文档的风格和长度其向量更接近真实文档的向量。用户 query超额支付怎么退 (7 个字) ↓ LLM 生成假设答案假设答案当发票结算时实际支付金额大于发票金额 (82 个字) 超额部分OverPayment会自动转入客户预存款账户。客户可以申请将预存款余额退回到原支付方式或保留用于后续差旅消费及抵扣供应商 Exchange OrderXO…… ↓ Embedding 检索检索到《预存款管理规范》中关于 OverPayment 的段落二、内容召回Retrieval内容召回是从知识库中找到与问题最相关的文本块。这是检索生成的第一步也是回答准确性的直接决定因素。2.1 向量相似度检索将改写后的问题向量化在向量数据库中通过余弦相似度查找 Top-K 个最相似的 chunk。以 TMC 为例——用户问北京出差住宿标准Query 向量: [0.15, -0.32, 0.78, ...]知识库中 Top-3 匹配 #1 余弦相似度 0.96: 技术部员工北京出差住宿标准为 500 元/晚含早 #2 余弦相似度 0.87: 销售部员工上海出差住宿标准为 400 元/晚 #3 余弦相似度 0.73: 北京出差餐饮补贴为 150 元/天纯向量检索的局限对于精确术语容易失准。比如用户搜 “XO Exchange Order”向量检索可能返回大量订单交换相关的语义近似文档但真正的《供应商 XO 核销协议》反而排名靠后。2.2 混合检索Hybrid Search混合检索将关键词检索BM25和向量检索结合在查得广和查得准之间取得平衡检索方式擅长局限向量检索语义理解、“出差住宿匹配酒店报销”专业术语/缩写易失准BM25 关键词精确匹配 TR001“XO”“OverPayment”无法理解同义表达两路检索结果通过RRF倒数排序融合合并RRF 分数(d) Σ 1/(k rank(d)) // k 通常取 60在两条检索路径中排名都高的文档获得更高的融合分数。RRF 无需模型参与延迟低于 10ms能提升 NDCG 15-20%。2.3 重排序Reranking混合检索的 Top-K通常 50-100 个仍是粗召回。Rerank 模型对候选做精排输出最终 Top-N通常 3-5 个送入 LLM。这是 2025 年的工业标准——两阶段检索阶段一粗召回: Embedding BM25 → Top-100延迟 50ms阶段二精排: Cross-Encoder Reranker → Top-5延迟 150ms为什么 Cross-Encoder 比向量相似度更准向量检索引擎中 query 和 document 是独立编码的Bi-Encoder查询和文档从未见面。Cross-Encoder 将 query-document 成对输入进行深度交叉注意力计算精度远高于向量距离。主流 Reranker 模型模型类型适用场景Cohere Rerank 4 ProAPI32K 上下文企业级长文档多语言Voyage Rerank 2.5API平衡型高准确率bge-reranker-v2-m3开源多语言自托管首选Qwen3 Reranker 8B开源2025 年开源新秀注意Reranker 并非万能。当领域严重不匹配如 MS MARCO 训练的 reranker 用于法律/医疗文本或 query 极短3-5 词时reranker 反而可能降低精度。决策规则仅当粗召回recall50显著高于recall5时才引入 reranker。三、上下文融合Context Fusion内容召回找到了相关资料但如何让模型正确使用这些资料关键在于 Prompt 工程。3.1 Prompt 模板设计将检索到的 chunk 与用户问题按结构化模板拼装【系统指令】你是一个 TMC 差旅管理助手。严格遵循以下规则1. 仅根据提供的 [参考资料] 回答问题不要使用你自己的知识2. 每个关键陈述后标注来源编号如 [1]、[2]3. 如果参考资料中信息不足以回答问题明确说明根据现有资料无法确定4. 优先使用排名靠前的资料编号越小越相关【参考资料】[1] 《差旅管理制度 v3.2》第三章技术部员工北京出差住宿标准为 500 元/晚含早。超出标准部分需部门总监审批。[2] 《费用报销标准》住宿费报销需提供正规发票及入住清单。[3] 《预存款管理规范》结算时超额支付的部分自动转入预存款账户。【用户问题】技术部员工张三去北京出差 3 天住宿费 2000 元能全报吗请生成回答模板设计原则•系统指令前置硬约束在顶层模型不容易遗忘•参考资料编号每个 chunk 标注序号方便模型引用•排名反映相关性最相关的 chunk 放在最前面LLM 对靠前内容的注意力更高•明确不知道的边界防止模型在资料不足时胡编3.2 多轮对话中的上下文管理RAG 在多轮对话中面临独特挑战——用户会使用代词和省略第 1 轮用户TR001 的审批状态是什么助手TR001 当前在部门总监审批节点……第 2 轮用户能催一下吗 → 直接用能催一下吗检索召回的是如何催促的各种无关文档 → 正确做法先改写为如何催办出差申请单 TR001 的审批多轮对话的上下文结构系统指令 (角色、规则、硬约束) 当前轮检索结果 (RAG Chunks 来源) 对话历史 (最近 3-5 轮原文) 当前用户问题 (已做指代消解)每轮对话前先结合历史上下文对当前问题做指代消解——将它“那个”这个替换为具体实体将省略的主语/宾语补全然后再进入检索引擎。四、内容生成Generation4.1 生成与引用大模型获得增强后的 Prompt基于检索资料生成答案。与不用 RAG 的回答对比维度不用 RAG用 RAG回答来源训练数据可能过时或不存在知识库权威文档可追溯性无法确定信息来源每个陈述标注来源编号幻觉风险高不知道就会编低不知道就说明查不到以 TMC 为例【RAG 生成的回答】根据《差旅管理制度 v3.2》技术部员工北京出差住宿标准为 500 元/晚 [1]。张三出差 3 天标准内可报销 500 × 3 1500 元。实际住宿费 2000 元超出标准 500 元。根据规定超出部分需部门总监审批 [1]。张三需要提供正规发票和入住清单 [2] 后提交报销申请。如果部门总监审批通过实际支付时若发生超额支付超出部分会自动转入张三的预存款账户 [3]可用于后续差旅消费。参考来源[1] 《差旅管理制度 v3.2》第三章住宿标准[2] 《费用报销标准》第二章报销材料[3] 《预存款管理规范》第一节超额支付处理4.2 元数据驱动的增强元数据不仅在检索阶段发挥过滤作用在生成阶段也能提升答案可信度•时效性标注标注引用文档的生效日期如2026 年 1 月起生效•适用性限定标注适用范围如仅适用于技术部其他部门标准见相关章节•版本追溯标注文档版本号如来源《差旅管理制度 v3.2》最新版本请查阅 HR 系统五、高级检索生成技术5.1 Self-RAG自反思检索增强传统 RAG 无论问题简单还是复杂都会执行检索。Self-RAG 让模型在生成前先做检索决策——使用特殊的反思 token自主决定是否需要检索、检索到的内容是否相关、生成的内容是否被检索结果支撑。用户今天星期几Self-RAG 决策不需要检索这是常识问题模型参数知识即可回答用户技术部员工的北京出差住宿标准是多少Self-RAG 决策需要检索 → 检索 → 校验相关性 → 生成标注支撑度Self-RAG 能够选择不检索直接回答简单问题避免不必要的检索开销和上下文噪音。5.2 CRAG修正检索增强生成CRAG 引入一个轻量级检索评估器对召回的文档做三级判断评估结果动作相关但含噪声将文档拆分为知识条带 → 过滤噪声 → 重组干净上下文不相关放弃检索结果 → 回退到公开 Web 搜索补充信息评估不确定同时执行上述两条路径取最优在 TMC 场景中CRAG 的作用用户问2026 年最新的差旅住宿标准评估器发现检索到的《差旅管理制度 v2.0》2024 版可能已过时自动触发 Web 搜索补充最新版本。5.3 迭代检索与反馈循环复杂问题一次检索往往不够。2025 年的前沿范式是迭代式 RAG——检索 → 生成 → 评估 → 识别信息缺口 → 再次检索 → 补充生成直到信息充分。FAIR-RAG2025 年 10 月HotpotQA 等基准的 SOTA将其形式化为五个步骤1. 结构化证据评估SEA将问题拆解为所需信息清单2. 证据审计检查已有证据识别明确的信息缺口3. 自适应查询细化为缺失信息生成针对性子查询4. 补充检索再次评估5. 证据充分时生成最终答案严格基于已验证证据TMC 场景示例用户TR001 的预算够不够不够的话从哪个部门调迭代 1检索TR001 预算 → 得到 TR001 的预算额度为 8000 元 SEA 发现缺口TR001 的实际消费金额可调配的部门预算迭代 2检索TR001 实际消费 → 得到已消费 9500 元超额 1500 元迭代 3检索技术部剩余预算可调配 → 得到技术部季度预算剩余 20000 元 SEA 确认信息充分最终答案TR001 已超预算 1500 元可从技术部季度预算中调配该部门剩余 20000 元。六、总结检索生成全流程查询改写 → 内容召回向量关键词Rerank→ 上下文融合Prompt 工程→ 内容生成查询改写是性价比最高的优化HyDE、多查询生成、子问题分解能带来 20-40% 的召回提升混合检索 Rerank 是生产标配两阶段检索粗召回 → 精排是 2025 年工业标准Prompt 模板是最后的关口结构化的系统指令引用标注不知道边界决定答案质量的上限进阶方向Self-RAG自主决策是否检索→ CRAG检索质量评估自动纠错→ 迭代式 RAG多轮检索直到信息充分元数据驱动向量负责语义匹配元数据负责精确过滤和来源追溯——两者贯穿检索到生成的全链路RAG 的检索生成不是一次性的检索然后回答而是一个可以迭代、可自我评估、可动态调整的智能过程。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Obsidian系列2：安装Obsidian（胎教级安装步骤）

前几天被安利了Obsidian,这两天特意了解了一下，很多人都在种草。于是对其更感兴趣了，而且我的确也有应用的需要。这两年的笔记都是在印象笔记中记录，都说Obsidian是笔记的终点站。于是准备下载学习一下。01 下载不知道什么原因，通…

2026/5/27 22:57:08 阅读更多

如何快速解决Honey Select 2汉化问题：面向新手的完整指南

如何快速解决Honey Select 2汉化问题：面向新手的完整指南【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为日文游戏界面而头疼吗？还…

2026/5/27 22:56:48 阅读更多

字节面试官：“RAG 不就是给大模型挂个知识库？“，我：“文档切分、向量检索、多路召回、Re-rank、RAG 评估、幻觉抑制……“

做了两年 AI 开发，说实话从 Java 转过来这条路走得不轻松我之前 Java 写了将近 10 年，Java 相关的东西玩得贼溜，两年前转向 AI 方向，做 RAG 做了快一年半前阵子朋友去字节面试，回来跟我说面试官上来就问&#xff1…

2026/5/27 22:56:48 阅读更多

性能优化：降低 AI Coding 助手的延迟与资源消耗

系列导读你现在看到的是《AI Coding 助手从原理到落地：10 篇工程实践指南》的第 7/10 篇，当前这篇会重点解决：给出可落地的性能优化手段，确保 AI 编码助手在团队日常开发中体验流畅。上一篇回顾：第 6 篇《AI 生成的代码你敢用吗？——代码质量审查与安全过滤实战》主要…

2026/5/28 0:11:21 阅读更多

【ChatGPT旅行规划辅助黄金标准】：基于ISO 21187旅行服务框架验证的12项输出质量评估指标

更多请点击： https://codechina.net 第一章：【ChatGPT旅行规划辅助黄金标准】：基于ISO 21187旅行服务框架验证的12项输出质量评估指标 ISO/IEC 21187:2023《旅游服务——智能辅助系统服务质量要求与评估指南》为AI驱动的旅行规划工具设定了可…

2026/5/28 0:10:20 阅读更多

产品生命周期场景下的模块化设计方案【附数据】

✨ 长期致力于产品生命周期、模块化设计、模块识别、产品簇、接口设计研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于改进设计约束的模块优化识别…

2026/5/28 0:10:20 阅读更多

维普4月升级降AI失效？2026年5月仍有效的4款降AI软件实测

2026年毕业季过半，但还有大量同学的论文卡在AIGC检测这一关。知网在年初做了一次算法升级，维普、万方也在跟进，检测变得越来越严。论文一个字没改，去年12月查AI率18%能过，今年再查变成32%，很多同学就是栽在…

2026/5/28 0:09:40 阅读更多

别再用有道查了！贾俊平《统计学》第七版核心术语中英对照表，我帮你整理好了

统计学专业术语中英对照实战手册：从死记硬背到高效应用翻开贾俊平教授的《统计学》第七版，你是否曾被那些看似熟悉却又陌生的英文术语困扰？当你在SPSS输出结果中看到"ANOVA"时，是否还在犹豫该查"方差分析"还是…

2026/5/28 0:09:19 阅读更多

摆脱论文困扰：6款2026年高效AI论文工具深度横评

在学术写作面临全新挑战的今天，AI工具正从辅助角色演变为重要的生产力引擎。针对免费、好用且能提供真实引用支持的核心需求，经过对市面上主流工具的深入测试与分析，我们发现表现突出的工具有：千笔AI、ChatGPT、Claude、文心一言、…

2026/5/28 0:09:19 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章