RAG 基本原理：检索增强生成完整指南

发布时间：2026/6/30 5:32:00

什么是 RAGRAGRetrieval-Augmented Generation检索增强生成是一种将信息检索与大语言模型LLM生成结合的系统设计模式。其核心思想是在回答用户问题之前先从外部知识库中检索相关文档片段再将检索结果作为上下文注入 Prompt由 LLM 基于「问题检索上下文」生成答案。经典定义来自 Lewis 等人2020用检索到的文档增强语言模型的输入从而提升知识密集型任务的表现并降低幻觉。RAG 的应用场景场景说明智能客服基于产品手册、FAQ 回答用户咨询企业知识库内部制度、流程、技术文档问答文档助手合同、研报、论文等长文档问答与摘要代码助手结合代码库 / API 文档做检索式问答垂直领域问答医疗、法律、金融等需引用权威资料的场景为什么需要 RAG3.1 传统检索方式的局限方式特点局限关键词检索BM25 等精确匹配词项难以理解同义表达与语义全文检索覆盖整篇文档难以定位细粒度相关片段纯向量检索语义相似度匹配对专有名词、编号等字面匹配较弱传统检索只返回文档列表无法像对话一样组织自然语言答案用户仍需自行阅读与归纳。3.2 仅使用 LLM 的局限LLM 的本质是基于上下文预测下一个 Token在缺少外部事实支撑时容易出现幻觉Hallucination编造不存在的事实或引用知识过时训练数据有截止时间无法反映最新信息无法访问私有数据企业内网文档、个人资料未参与训练上下文与成本约束整库文档无法全部塞进上下文窗口Token 越多延迟与费用越高RAG 通过「先检索、再生成」把回答锚定在可核查的外部片段上在效果、成本与可控性之间取得平衡。RAG 核心流程RAG 通常分为两条生命周期离线索引构建Indexing 与在线查询应答Query / Inference。4.1 第一阶段离线数据准备Indexing Pipeline将私有知识沉淀为可检索的向量索引。原始文档 → 加载与解析Load Parse → 清洗与结构化Clean → 文档切分Chunking → 向量化Embedding → 写入向量库并建立索引Index Metadata步骤说明加载与解析从 PDF、Word、网页、数据库等抽取纯文本复杂版式需 OCR、表格解析清洗去噪、统一编码、去重、保留标题层级与来源等元数据切分Chunking按固定长度、段落、标题或语义边界切成 Chunk常配合 Overlap重叠避免语义在边界被截断向量化使用 Embedding 模型将每个 Chunk 映射为稠密向量存储与索引写入向量数据库如 Milvus、Qdrant、Pinecone、pgvector 等并保存文档 ID、页码、权限等元数据Metadata 供过滤4.2 第二阶段在线用户提问Query Pipeline用户发起问题后的标准链路如下粗筛与精筛是同一检索链路上的两档而非两套独立系统。用户问题 → [可选] 查询改写 / 分类Query Rewrite / HyDE 等 → 问题向量化Query Embedding → 检索Retrieval ├─ 向量相似度检索Dense余弦相似度、点积等 ├─ [可选] 关键词检索SparseBM25 等 └─ [推荐] 混合检索Hybrid Search 权限过滤ACL Filter → Top-K 粗筛召回候选 Chunk → [可选] 重排RerankCross-Encoder 等→ 精筛 Top-N → Prompt 组装Augmentation问题检索片段系统指令 → LLM 生成回答 → [可选] 后处理引用标注、安全过滤、拒答策略流程说明纠正常见误解相似度检索是手段向量检索是其实现方式之一在线阶段是对问题向量与库中 Chunk 向量做近邻搜索而不是再次对原始文档做全量向量化。Top-K 负责召回Recall追求「尽量不漏」Rerank 负责精排Precision用更强但更慢的模型对少量候选重新打分。欧氏距离与余弦相似度在向量已归一化时往往等价工程上更常用余弦相似度或内积。关键组件速览组件作用Embedding 模型文本 ↔ 向量索引与查询须使用同一模型或兼容版本向量数据库高效近似最近邻ANN搜索支持元数据过滤检索器Retriever执行 Dense / Sparse / Hybrid 检索重排模型Reranker对 Query–Document 对精细打分提升 Top 结果相关性Prompt 模板约束 LLM 仅依据给定上下文作答并要求标注来源生成模型LLM综合上下文生成最终自然语言回答难点与工程技巧6.1 文档类型多样化PDF、Word、Excel、PPT、扫描件、图片等格式各异。需通过解析器、OCR、表格识别等手段做数据清洗与结构化解析质量直接决定 RAG 上限这一步不可忽视。6.2 文档切分Chunking问题后果Chunk 过大噪声多、相似度区分度下降、易超出上下文Chunk 过小语义不完整、回答缺乏必要背景建议结合文档结构标题、段落切分设置合理chunk_size与chunk_overlap对代码、表格等特殊内容单独策略处理。6.3 用户问题口语化口语、省略、多义词会导致检索偏差。可采用Query Rewrite用 LLM 将口语问题改写为更利于检索的表述HyDEHypothetical Document Embeddings先生成假设性答案再取向量检索Query Decomposition将复杂问题拆成子问题分别检索6.4 混合检索Hybrid Search生产环境常将向量检索语义与 BM25 等关键词检索字面结合再经融合打分如 RRF 取并集兼顾「意思相近」与「专有名词精确命中」。6.5 模型选型需综合考量Embedding 与 LLM 的效果、幻觉率、推理延迟、Token 成本、是否支持长上下文、私有化部署与合规要求等。6.6 评估与可观测性检索与生成应分开评估RecallK、MRR 看检索答案忠实度、引用正确性看生成记录每次查询的检索片段、Prompt、模型版本便于回归与排错业界经验多数 RAG 失败根因是检索错了上下文而非生成模型本身能力不足数据权限实现企业知识库、多部门协作等场景下RAG 必须保证用户只能检索并看到其有权限访问的文档否则会出现越权泄露。权限控制应贯穿索引写入与在线检索全链路且以检索前过滤为主不能依赖 LLM「自觉保密」。7.1 设计原则原则说明最小权限默认不可见仅显式授权的资源可进入检索结果检索前过滤在向量库 / 检索引擎侧用过滤条件缩小候选集避免无权 Chunk 进入 Prompt权限与内容同源ACL 来自业务系统HR、OA、文档库索引时写入变更时同步更新租户隔离多租户场景下tenant_id与业务权限一并作为硬过滤条件可审计记录用户身份、命中的文档 ID、过滤条件满足合规与追责7.2 权限模型常见维度用户身份User ID ├─ 所属组织 / 部门dept_id ├─ 角色roleadmin、employee、guest ├─ 用户组 / 岗位group_id └─ 租户tenant_idSaaS 多租户文档 / Chunk 元数据 ├─ owner_id、dept_id ├─ visibilitypublic / internal / confidential ├─ allowed_roles、allowed_user_ids、allowed_dept_ids └─ 密级、项目 ID、数据域标签RBAC基于角色按角色映射可读文档集合实现简单适合层级清晰的组织。ABAC基于属性按用户属性资源属性动态判断适合跨部门、项目制权限。文档级 vs Chunk 级权限通常挂在文档上索引时将同一 ACL 复制到每个 Chunk 的 metadata若同一文档内段落权限不同需按段落切分并分别打标。7.3 离线阶段索引时写入权限元数据在向量化入库时为每个 Chunk 附带权限相关字段与向量一并存储{ chunk_id:doc_1001_c003, text:..., tenant_id:t_001, doc_id:doc_1001, dept_id:[d_sales,d_hr], visibility:internal, allowed_roles:[employee,manager], allowed_user_ids:[], security_level:2, updated_at:2026-05-01T10:00:00Z }同步策略文档授权变更 → 更新源系统 ACL → 增量更新向量库中对应 Chunk 的 metadata或删除后重新索引用户离职 / 角色调整 → 由 IAM 驱动无需改 Chunk 内容仅在线查询时用最新身份计算过滤条件7.4 在线阶段检索时强制过滤用户请求进入检索前由鉴权服务解析当前用户可访问范围生成过滤表达式与向量检索一并下发用户提问 JWT / Session → 鉴权解析 user_id、tenant_id、roles、dept_ids → 生成 filter如 tenant_id X AND (dept_id IN [...] OR allowed_user_ids CONTAINS user_id) → 向量检索 Top-K仅在 filter 命中的子集内做 ANN → Rerank → Prompt → LLM向量库侧实现以常见能力为例方式适用场景Metadata Filter单库多文档按tenant_id、dept_id、role等字段过滤Milvus、Qdrant、Elasticsearch 等均支持分 Collection / 分 Index租户或事业部完全隔离物理隔离运维成本高但边界清晰多路检索权限交集Hybrid 检索时Dense / Sparse 两路均带相同 filter避免一路绕过权限注意过滤必须在 ANN 查询参数中生效Pre-filter不能先 Top-K 再内存过滤否则无权但相似度高的 Chunk 可能先被召回并进入 Rerank存在泄露风险。7.5 典型实现架构┌─────────────┐ ┌──────────────┐ ┌─────────────────┐ │ SSO / IAM │────▶│ RAG API 网关 │────▶│ 权限解析服务 │ │ (OAuth/SAML)│ │ (校验 Token) │ │ (用户→filter) │ └─────────────┘ └──────┬───────┘ └────────┬────────┘ │ │ ▼ ▼ ┌──────────────┐ ┌──────────────┐ │ 检索服务 │◀───────│ ACL 缓存/DB │ │ filterTop-K │ │ (与 OA 同步) │ └──────┬───────┘ └──────────────┘ ▼ ┌──────────────┐ │ 向量数据库 │ │ chunkmetadata│ └──────────────┘网关层校验 Token拒绝未登录请求不向 LLM 传递其他用户的身份信息。权限解析服务将「用户 → 可访问 dept/role/doc 列表」转为检索 filter可对热点用户 ACL 做短时缓存但须设 TTL 并在权限变更时失效。文档源系统Confluence、SharePoint、自研 OA 等作为权限真源通过 webhook 或定时任务同步到 RAG 索引。7.6 生成与展示层的安全补充环节做法Prompt仅注入已通过权限过滤的 Chunk系统提示中要求不得推测未提供文档中的敏感内容引用与下载返回的doc_id、链接需二次校验用户是否仍有权访问该文档拒答策略过滤后无召回时返回「未找到您有权限的相关资料」避免暗示存在无权文档日志脱敏审计日志记录 doc_id、chunk_id避免记录完整机密正文7.7 常见风险与对策风险对策先召回后过滤Top-K 含无权 Chunk使用向量库带 filter 的查询 API或分租户独立索引元数据过期用户已失去权限仍能检索ACL 变更触发 metadata 更新在线侧用 IAM 实时身份短 TTL 缓存多租户 filter 写错强制所有请求带tenant_id集成测试覆盖越权用例Prompt 注入诱导模型「忽略权限」权限不交给模型判断检索层硬过滤输出层不返回未授权引用管理员误将机密库设为 public入库前校验visibility敏感库单独 Collection 审批流最佳实践小结先证明检索有效再优化生成索引与查询使用一致的 Embedding 模型为 Chunk 保留来源、页码、权限等元数据检索时必须带权限 filter默认采用 Hybrid Top-K 轻量 Rerank 作为生产基线Prompt 中明确要求仅依据上下文回答不知道则说明文档或 ACL 变更后需及时更新索引元数据或 Re-index从简单链路起步再逐步加入改写、HyDE、多路检索等增强模块企业场景务必实现第 7 节数据权限并以越权检索用例纳入回归测试这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

openGauss5.0.3在centos7中镜像打包，在wsl中加载启动

1、创建openGauss5.0.3目录在目录下创建5.0.3目录和vi buildDockerImage.sh buildDockerImage.sh： #!/bin/bash # Build docker image # Copyright (c) Huawei Technologies Co., Ltd. 2020-2028. All rights reserved. # #openGauss is licensed under Mulan PSL …

2026/6/30 5:32:00 阅读更多

BOM 尾料停产后怎么处理？PMC 五步清单与初评前提

一、什么叫 BOM 尾料，和「杂呆滞」有什么不同 BOM 尾料通常指：某一机型或订单对应的物料清单里，生产结束后仍留在仓里的剩余料。常见来源： 订单砍量、客户取消，已采购未耗完机型 EOL，专用料（特…

2026/6/30 5:32:00 阅读更多

【2026】CAD Mechanical 2027机械版下载安装超详细教程(附安装包)

文章目录CAD Mechanical 2027 安装包下载CAD Mechanical 2027安装教程CAD Mechanical 2027入门基础教程：从界面认识开始机械设计和机械工程圈子里，装软件这件事看着简单，但真上手总会在某个环节卡住。CAD Mechanical 2027安装教程网上一搜不少…

2026/6/30 5:31:20 阅读更多

手写多语言代码执行引擎：从零实现安全的 LLM 代码沙箱

为什么需要代码执行引擎？ 当 LLM（大语言模型）生成代码后，Agent 系统面临一个核心问题：谁来执行这段代码？ 直接在本机执行 LLM 生成的代码是极其危险的。大模型的输出可能存在： 恶意提示注入&…

2026/6/30 6:43:27 阅读更多

快手内容提取免费额度到底够用吗 2026实测经验给出明确答案

先回答用户真正关心的问题我是长期测试AI效率工具的运营博主，这篇是2026年3月的实测结果，直接给答案：大部分轻度使用的用户（每月提取快手内容时长不超过5小时），主流工具的免费额度完全够用；如…

2026/6/30 6:43:07 阅读更多

Bradykinin Potentiator Peptide 9a (SQ 20881) ；pWPRPQIPP

一、基础信息中文名称：缓激肽增强肽 9a（SQ 20881）英文名称：Bradykinin Potentiator Peptide 9a，BPP 9a，SQ 20881三字母序列：Pyr-Trp-Pro-Arg-Pro-Gln-Ile-Pro-Pro单字母序列：pWPRPQI…

2026/6/30 6:42:46 阅读更多

ChatGPT函数调用可靠性SLO达成率低于89%？用这6个可观测性埋点+Prometheus告警模板，1小时定位根因

更多请点击： https://kaifayun.com 第一章：ChatGPT函数调用可靠性SLO告警事件全景复盘本次SLO告警源于核心服务链路中函数调用成功率（Function Call Success Rate）连续15分钟低于99.95%的P99目标阈值，触发三级告警并…

2026/6/30 6:42:06 阅读更多

6G近场通信中的RSMA-TTD混合波束聚焦技术解析

1. 近场宽带通信的技术挑战与突破方向在6G通信系统的演进过程中，近场通信(NFC)与极大规模天线阵列(ELAA)的结合正在重塑无线网络的物理层架构。当工作频率提升至毫米波(30-300GHz)和太赫兹(0.1-10THz)频段时，传统的远场平面波假设不再适用，通…

2026/6/30 6:41:46 阅读更多

第一章Netty，transferTo传输大文件

基于前文对 FileChannel 零拷贝特性及 transferTo 基础用法的讨论，处理‌大文件‌（通常指 GB 级别或超过操作系统单次传输限制的文件）时，核心挑战在于‌单次调用的局限性‌和‌内存/内核缓冲区压力‌。以下是针对大文件使用 transferTo 的标准处理方案：一、核心策略：…

2026/6/30 6:41:25 阅读更多

Google限制Meta使用Gemini模型凸显AI授权竞争白热化

近日，据多家科技媒体报道，Google已对Meta施加限制，禁止其在部分产品或服务中直接使用Gemini AI模型。这一消息一经传出，便在人工智能领域掀起波澜，凸显出当前大厂间AI模型授权竞争的激烈程度。新闻导语：根…

2026/6/30 0:01:09 阅读更多

XGBoost超参数实战：从理论到调优策略

1. XGBoost超参数基础认知第一次接触XGBoost时，我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果，但按错了就可能坠机。经过多年实战，我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:51 阅读更多

ChatGPT函数调用从入门到高并发落地：3步完成生产级集成，附可直接运行的TypeScript+Python双模版

更多请点击： https://kaifayun.com 第一章：ChatGPT函数调用的核心原理与演进脉络函数调用（Function Calling）是大语言模型从纯文本生成迈向结构化交互的关键跃迁。其本质并非模型原生具备“执行代码”的能力，而是通…

2026/6/30 0:04:11 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 0:04:06 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/30 1:24:32 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/30 1:24:32 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/29 13:06:32 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/29 13:32:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…