LangChain-Chatchat 开发与应用(五) RAG核心链路深挖-检索到重排序到生成的技术细节

发布时间：2026/5/20 5:41:29

RAG 核心链路深挖检索 → 重排序 → 生成的技术细节标签RAG | 向量检索 | Rerank | 相似度计算 | 流式输出 | Prompt 工程一、从一个玄学问题开始做 RAG 的同学应该都有过这种经历同样的文档、同样的问题昨天回答得挺好今天突然就不准了。你啥也没改但它就是抽风了。这种玄学现象的背后其实是有技术原因的。今天咱们就把 RAG 的核心链路拆开看看每个环节到底在干什么以及为什么会影响最终效果。二、RAG 链路全景图先把完整链路画清楚用户提问 ↓ [查询向量化] ──→ Query Embedding ↓ [向量检索] ──→ 粗排召回 Top-K比如 100 条 ↓ [重排序] ──→ 精排选出 Top-N比如 5 条← 可选环节 ↓ [上下文拼接] ──→ 把选中的文档问题拼成 Prompt ↓ [LLM 生成] ──→ 流式输出回答 ↓ [来源标注] ──→ 标注引用的文档咱们逐个环节深挖。三、环节 1查询向量化3.1 Embedding 的本质Embedding 就是把文本变成向量一堆数字。退款政策是什么 ↓ Embedding 模型 [0.023, -0.156, 0.891, ..., -0.034] ← 1024 维向量关键特性语义相近的文本向量距离也近。退款政策是什么 ≈ 怎么申请退货 ≈ 钱怎么退回来 ↓ ↓ ↓ 向量 A 向量 B 向量 C distance(A, B) 很小 distance(A, D) 很大 D 公司成立于 2020 年3.2 查询向量化的坑坑 1查询和文档的语言风格不一致文档里写的是“退货流程说明用户需在收货后 7 天内提出申请…”用户问的是“我买了东西不想要了咋办”如果 Embedding 模型不够强这两种表达可能匹配不上。解决方案用更强的 Embedding 模型bge-large-zh m3e-base加 Rerank 模型做精排混合检索向量关键词互补坑 2短查询的信息量不足用户只问了一个词“退款”这个词的向量可能跟很多不相关的内容也有点像。解决方案查询扩展把退款扩展成退款政策、退款流程、退货退款HyDEHypothetical Document Embedding让 LLM 先写一个假设的回答再对这个回答做向量化# HyDE 伪代码asyncdefhyde_retrieval(query):# 1. 让 LLM 写一个假设的回答hypothetical_answerawaitllm.generate(f请简要回答这个问题{query})# 2. 对假设回答做向量化信息更丰富query_embeddingembed(hypothetical_answer)# 3. 用假设回答的向量去检索docsvector_store.search(query_embedding)returndocs四、环节 2向量检索4.1 相似度计算向量检索的核心是相似度计算常用两种方法余弦相似度Cosine Similarityimportnumpyasnpdefcosine_similarity(a,b):计算两个向量的余弦相似度范围 [-1, 1]returnnp.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b))# 实际使用中FAISS 等库已经优化好了点积Dot Productdefdot_product(a,b):简单向量点积returnnp.dot(a,b)区别余弦相似度只关心方向不关心长度适合语义匹配点积同时考虑方向和长度适合需要区分重要性的场景4.2 近似最近邻ANN算法当向量库里有几百万条数据时暴力计算每条的相似度太慢了。需要用近似算法┌─────────────────────────────────────────┐ │ 暴力搜索 (Flat) │ │ - 精确但 O(N) 复杂度 │ │ - 适合数据量 10万 │ ├─────────────────────────────────────────┤ │ IVF (Inverted File Index) │ │ - 把向量空间分成多个区域 │ │ - 先找最近的几个区域再区域内搜索 │ │ - 速度快精度略有损失 │ ├─────────────────────────────────────────┤ │ HNSW (Hierarchical Navigable Small World)│ │ - 构建多层图结构 │ │ - 贪心搜索层层逼近 │ │ - 速度和精度的最佳平衡 │ └─────────────────────────────────────────┘Chatchat 默认用 FAISS推荐配置# 小数据量 10万条indexfaiss.IndexFlatIP(dimensions)# 暴力搜索精确# 中数据量10万 ~ 100万indexfaiss.IndexIVFFlat(quantizer,dimensions,nlist)# 大数据量 100万或要求高速度indexfaiss.IndexHNSWFlat(dimensions,M32)4.3 检索参数调优在kb_settings.yaml中# 向量检索返回数量VECTOR_SEARCH_TOP_K:10# 相似度阈值低于这个分的不要SCORE_THRESHOLD:0.5# 是否启用混合检索DEFAULT_SEARCH_TYPE:mix参数调优建议场景TOP_KSCORE_THRESHOLD说明精确问答50.6只要最相关的开放式问答100.4多给点上下文文档内容少30.5避免引入噪声文档内容多150.5增加召回率五、环节 3重排序Rerank5.1 为什么需要 Rerank向量检索有个问题它只关心语义相似不关心是否真正回答了问题。举个例子问题怎么申请退款向量检索 Top 3 1. 退款政策说明用户可在收货后 7 天内申请退款... ← 相关 ✓ 2. 退款金额将在 3-5 个工作日内原路返回... ← 相关 ✓ 3. 公司成立于 2020 年主营电子产品... ← 不相关 ✗但可能含退款字样Rerank 的作用就是在召回的候选集里重新判断哪些真正相关。5.2 Rerank 的原理Rerank 模型通常是一个交叉编码器Cross-Encoder向量检索双编码器查询 ──→ Embedding ──→ 向量文档 ──→ Embedding ──→ 向量相似度 cosine(查询向量, 文档向量) 问题查询和文档是独立编码的没有交互 Rerank交叉编码器 [查询文档] ──→ 联合编码 ──→ 相关性分数优势查询和文档可以互相看判断更准确代价计算量大只能对少量候选做精排5.3 Chatchat 中启用 Rerank# model_settings.yamlDEFAULT_RERANK_MODEL:bge-reranker-large# kb_settings.yaml# 向量检索召回数量给 Rerank 的候选集VECTOR_SEARCH_TOP_K:20# Rerank 后最终保留数量RERANK_TOP_K:5流程变成用户提问 ↓ 向量检索召回 Top 20 ↓ Rerank 模型精排选出 Top 5 ↓ 送给 LLM 生成回答5.4 Rerank 的效果实测数据同一批测试集配置准确率延迟无 Rerank72%500ms Rerank (base)81%800ms Rerank (large)86%1200ms结论Rerank 能显著提升准确率但有延迟成本。对精度要求高的场景建议开启。六、环节 4上下文拼接6.1 为什么需要拼接LLM 的输入是一个字符串但咱们有检索到的文档用户问题需要拼成一个完整的 Prompt。6.2 拼接策略Chatchat 默认用“Stuff”策略——把所有文档直接塞进 Prompt【系统提示】你是一个专业的客服助手请基于参考资料回答问题。【参考资料】文档 1退款政策说明用户可在收货后 7 天内... 文档 2退款金额将在 3-5 个工作日内... 文档 3... 【用户问题】怎么申请退款【要求】 1. 基于参考资料回答 2. 标注信息来源 3. 不要编造Stuff 策略的问题文档太多时超出 LLM 的上下文长度无关文档会干扰 LLM 的判断其他策略策略原理适用场景Stuff全部塞进去文档少、上下文够Map-Reduce每篇文档单独问再汇总文档多、需要综合Refine逐篇迭代优化答案需要高精度综合Chatchat 默认用 Stuff因为 RAG 场景下检索到的文档通常已经经过筛选数量可控。6.3 上下文长度管理# 伪代码上下文长度控制defbuild_prompt(docs,query,max_context_length3000): 把文档拼进 Prompt但不超过最大长度 contextused_docs[]fordocindocs:# 预估加上这篇文档后的长度candidatecontextf\n文档{doc.page_content}\niflen(candidate)max_context_length:break# 超长了停止添加contextcandidate used_docs.append(doc)promptf基于以下资料回答问题\n{context}\n\n问题{query}returnprompt,used_docs七、环节 5LLM 生成7.1 生成参数详解# model_settings.yamlLLM_MODEL_CONFIG:qwen2-instruct:model:qwen2-instructtemperature:0.7# 创造性 vs 确定性max_tokens:4096# 最大输出长度top_p:0.9# 核采样frequency_penalty:0# 重复惩罚presence_penalty:0# 新颖性惩罚参数调优指南参数作用调大调小temperature随机性更有创意更确定top_p采样范围更多样更集中max_tokens输出长度回答更长回答更短frequency_penalty重复惩罚减少重复允许重复RAG 场景推荐temperature: 0.3~0.5RAG 需要确定性不要发挥max_tokens: 2048根据回答长度调整7.2 流式输出SSEChatchat 支持流式输出用户体验更好# 伪代码SSE 流式输出fromfastapiimportStreamingResponseasyncdefstream_chat(request):asyncdefgenerate():# 调用 LLM 的流式接口asyncforchunkinllm.astream(prompt):yieldfdata:{json.dumps({content:chunk})}\n\nyielddata: [DONE]\n\nreturnStreamingResponse(generate(),media_typetext/event-stream)SSEServer-Sent Events原理HTTP 长连接服务器持续推送数据前端逐字显示像打字机效果比 WebSocket 简单单向通信足够八、环节 6来源标注8.1 为什么需要来源标注RAG 的回答可能出错让用户知道这个回答是从哪来的可以增加可信度也便于人工复核。8.2 Chatchat 的来源标注实现# 伪代码来源标注asyncdefknowledge_base_chat_with_source(request):# 1. 检索文档docsretrieve_documents(request.query)# 2. 构建 Prompt要求模型标注来源promptf 基于以下资料回答问题并在回答中标注信息来源格式[来源: 文档名]。资料{format_docs_with_source(docs)}问题{request.query}# 3. 生成回答answerawaitllm.generate(prompt)# 4. 返回前端高亮显示来源return{answer:answer,source_documents:[{title:doc.metadata[source],content:doc.page_content}fordocindocs]}九、完整链路的效果调优9.1 调优优先级按效果影响从大到小排序1. Embedding 模型质量影响检索⭐⭐⭐⭐⭐ 2. 文本分块策略影响检索⭐⭐⭐⭐⭐ 3. Rerank 模型影响精排⭐⭐⭐⭐ 4. Prompt 模板影响生成⭐⭐⭐⭐ 5. LLM 质量影响生成⭐⭐⭐ 6. 检索参数 TOP_K影响召回⭐⭐⭐ 7. 生成参数 temperature影响风格⭐⭐9.2 诊断流程回答不好时按这个顺序排查Step 1: 检查检索结果 └─ 打印 retrieved_docs看是否包含正确答案 └─ 如果不包含 → 调分块、换 Embedding、加 Rerank Step 2: 检查 Prompt └─ 打印最终 Prompt看上下文是否完整 └─ 如果上下文不对 → 调分块、调 TOP_K Step 3: 检查 LLM 输出 └─ 看 LLM 是否胡编 └─ 如果胡编 → 加强 Prompt 约束、降低 temperature十、小结这篇咱们把 RAG 的核心链路彻底拆开了✅ 查询向量化Embedding 原理、HyDE 查询扩展✅ 向量检索相似度计算、ANN 算法、参数调优✅ 重排序Cross-Encoder 原理、效果与成本权衡✅ 上下文拼接Stuff/Map-Reduce/Refine 策略✅ LLM 生成参数详解、流式输出 SSE✅ 来源标注实现原理和用户体验✅ 效果调优优先级排序和诊断流程核心认知RAG 不是检索生成的简单拼接而是一个系统工程。检索质量决定了上限LLM 质量决定了下限。优化要抓重点先搞定 Embedding 和分块再考虑其他。你在调优 RAG 效果时哪个环节给你带来的提升最大Embedding、Rerank 还是 Prompt欢迎分享经验

Grounding DINO：从零解析跨模态开放集检测的架构革新与实战

1. 开放集检测的革命：为什么需要Grounding DINO？ 当你在手机相册里搜索"海边日落"时，传统视觉模型只能匹配预设的"沙滩""太阳"等标签，而Grounding DINO却能真正理解语义——这就是开放集检测的魅力…

2026/5/20 5:41:29 阅读更多

C# WinForms 画板实战：手把手教你打造一个交互式绘图工具（附完整源码）

C# WinForms 画板实战：从零构建可复用的交互式绘图控件在桌面应用开发领域，图形交互功能一直是提升用户体验的关键要素。本文将带您完整实现一个基于C# WinForms的绘图控件，不仅支持基础图形绘制，更注重工程化实践——从UI设计到…

2026/5/20 5:39:48 阅读更多

别再只会下载了！手把手教你用STLINK-V3调试STM32F4，实战断点与寄存器查看

从烧录器到调试利器：STLINK-V3在STM32开发中的高阶应用第一次接触STM32开发时，我们往往把STLINK当作一个简单的程序烧录工具——连接SWD接口，点击下载按钮，等待进度条走完。这种认知让很多开发者错过了STLINK最强大的功能&#x…

2026/5/20 5:39:28 阅读更多

告别混乱！用这6个SAP屏幕跳转语句，让你的Fiori应用底层逻辑更清晰

告别混乱！用这6个SAP屏幕跳转语句，让你的Fiori应用底层逻辑更清晰在SAP的演进历程中，从传统的ABAP Dialog编程到现代的Fiori/UI5应用开发，屏幕导航逻辑始终是系统交互设计的核心。对于同时维护传统模块和开发新Fiori界面的开发者…

2026/5/20 6:37:23 阅读更多

从零部署SAM自动标注工具链：模型转换、交互标注与格式实战

1. 环境准备与项目部署第一次接触SAM自动标注工具时，我被它强大的零样本分割能力震撼到了。这个由Meta开源的Segment Anything Model（SAM）确实改变了传统标注工作的游戏规则。下面我就带大家从零开始搭建整套工具链，过程中会分享…

2026/5/20 6:37:23 阅读更多

别再硬编码了！用Unity动画事件实现音效与攻击判定的动态解耦（附完整C#脚本）

告别硬编码：Unity动画事件驱动的模块化开发实战在游戏开发中，动画系统与游戏逻辑的耦合常常成为后期维护的噩梦。想象一下这样的场景：每次调整动画帧数都需要同步修改代码中的硬编码数值，或者音效资源路径被直接写在脚本里导致资…

2026/5/20 6:37:23 阅读更多

如何用QMCDecode轻松解锁QQ音乐加密格式：macOS用户的完整音频转换指南

如何用QMCDecode轻松解锁QQ音乐加密格式：macOS用户的完整音频转换指南【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac，qmc0,qmc3转mp3, mflac,mflac0等转flac)，仅支持macOS，可自动识别到QQ音乐下载目录&a…

2026/5/20 6:37:03 阅读更多

别再为ABIDE数据发愁：用SPM12+DPABI从零提取脑图谱ROI时间序列（附避坑指南）

从ABIDE数据到脑网络特征：SPM12与DPABI全流程实战解析在神经影像研究中，静息态功能磁共振（rs-fMRI）已成为探索大脑功能连接的重要工具。ABIDE、ADNI等公开数据集为研究者提供了丰富的原始数据，但如何将这些数据转化为…

2026/5/20 6:37:03 阅读更多

深入解析NVIDIA Profile Inspector的多语言架构设计与实现

深入解析NVIDIA Profile Inspector的多语言架构设计与实现【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector作为一款专业的显卡配置文件编辑工具，为游戏玩家和硬件爱…

2026/5/20 6:36:22 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

Grounding DINO：从零解析跨模态开放集检测的架构革新与实战

C# WinForms 画板实战：手把手教你打造一个交互式绘图工具（附完整源码）

别再只会下载了！手把手教你用STLINK-V3调试STM32F4，实战断点与寄存器查看

告别混乱！用这6个SAP屏幕跳转语句，让你的Fiori应用底层逻辑更清晰

从零部署SAM自动标注工具链：模型转换、交互标注与格式实战

别再硬编码了！用Unity动画事件实现音效与攻击判定的动态解耦（附完整C#脚本）

如何用QMCDecode轻松解锁QQ音乐加密格式：macOS用户的完整音频转换指南

别再为ABIDE数据发愁：用SPM12+DPABI从零提取脑图谱ROI时间序列（附避坑指南）

深入解析NVIDIA Profile Inspector的多语言架构设计与实现

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

百考通：AI赋能期刊论文写作，智能生成优质内容

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)