RAG优化的多路召回-混合检索

发布时间：2026/6/26 17:21:55

总结混合检索关键词语义向量检索建两套索引一个关键词稀疏检索BM25一个向量稠密检索多路召回怎么融合最简单的就是排名求和倒数排序融合计算两种索引召回准确率的排名然后把段落排名求和取排名最前的文本片段。---------详细介绍--------------------------------------先搞清RAG 的检索召回层在干嘛把 RAG 想象成一个开卷考试的学霸用户问一个问题考题他先去翻一堆参考书检索召回找到最相关的几段话然后把这些段落抄下来结合自己的理解拼成最终答案生成你问的“检索召回层”就是那个翻书找段落的环节。它不用生成任何新内容只管“找到可能用得上的资料”。为什么需要“混合检索”单一检索不够吗早期翻书只有一种方法看关键词。比如你搜“苹果手机”它就去找所有包含“苹果手机”这四个字的页面。这叫关键词检索像图书馆的卡片索引学名稀疏检索BM25 是代表作。但问题来了——用户问“水果里那种红红的、脆甜的果子”它一个字都没提“苹果”关键词检索就会傻眼什么都找不到。后来有了大模型能把句子变成一串数字向量意思相近的句子数字也挨得近。于是可以按语义找你说“红红的脆甜果子”它能找到“苹果”的段落。这叫语义检索也叫稠密检索。但语义检索也不是万能它可能把“苹果手机”和“苹果水果”搞混模糊性对一些特别精确、专有的名词比如产品型号 XJ-882反而容易漏掉不如直接搜字符串来得准。所以混合检索关键词检索语义检索。两者互补一个抓精确匹配一个抓意思相近召回的段落更全更准。实际工程中到底是怎么做的这就好比你要同时查两种目录一个是传统的书末“关键词索引”一个是新潮的“概念地图”。在工程上你需要搭建两个不同的“索引库”然后把两个结果巧妙地揉在一起。第一步建好两个“库”你得预先把所有参考书你的文档库处理成两种形态关键词索引库给 BM25 用把每段文本拆词建立“倒排索引”哪个词出现在了哪几个段落里。常用工具Elasticsearch最常用、OpenSearch、Lucene。它们自带强悍的 BM25 算法。你只需要把文本丢进去它内部就建好了。语义向量库给向量检索用用一个大模型比如 text-embedding-ada-002 或开源的 BGE把每个段落都算成一个向量比如 1024 维的一串小数。把这些向量存进一个专门的向量数据库。常用工具Milvus、Pinecone、Weaviate、Qdrant、FAISSFacebook 的库常被集成。所以你的一份文档会变成两份副本存在两个不同的库里。这叫双索引架构。第二步接到问题同时发问当用户问题来了你也得准备两路关键词查询直接把问题文本丢给 Elasticsearch让它用 BM25 去找。Elasticsearch 会返回最匹配的 N 个段落并给每个段落打个相关性分数比如 score5.2。语义查询用同一个 embedding 模型把用户问题也转成向量然后去向量数据库里搜最相似的 M 个段落。向量库也会返回每个段落一个相似度分数比如 0.89。这两路查询完全独立可以同时进行不会相互等待。这是工程上能快的关键。第三步把两个结果“揉”在一起这才是难点现在你手上有两份结果列表可能长这样关键词结果BM25 [段落A, 5.2 段落B, 4.1 段落D, 3.8 ...]语义结果向量 [段落C, 0.91 段落A, 0.88 段落B, 0.75 ...]你想把它们合成一个最终列表给大模型去读。怎么合直接用分数相加吗绝对不行因为分数的尺度不一样BM25 的分数可能是 1 到几十向量相似度是 0 到 1。直接加谁大谁说了算完全乱套。工程师们主要有两种成熟招数招数一排名融合RRF倒数排序融合——最流行、最省事完全不看具体分数只看排名。段落A在关键词路排第1在语义路排第2。段落C在语义路排第1在关键词路压根没进前10排第20。RRF 会给每个排名位置一个固定的分第1名得1/(601)第2名得1/(602)...60是个魔术常数。然后把同一段落在不同路上的分加起来按总分重新排。这样两边都靠前的段落会排在前面只在一边露头的也能有个说得过去的分数。招数二分数校准后加权求和——需要调参用一些数学方法比如把分数都映射到差不多的范围或用统计分布把两路分数变得可比然后按权重相加最终分 a * BM25分 b * 向量分。这要求你调权重a和b比较吃经验换一批文档可能又要重调。实际工程中RRF 因为零参数、效果好被大量使用。一个典型的实际架构图手绘版text用户问题 | ------------------- | | [关键词查询] [语义向量化] | | Elasticsearch 向量数据库 (BM25检索) (ANN近似检索) | | 结果集1 (带BM25分) 结果集2 (带相似度分) | | ---- 结果融合器 --- (例如RRF算法) | 最终 Top-K 段落 | 发给大模型生成有没有更省事的一站式方案有的。现在很多新式数据库看到了这个需求直接在一个系统里同时维护关键词索引和向量索引你只需要一次查询它内部就帮你把混合检索做了。比如Elasticsearch 8.x自带了向量字段一条查询可以同时写 BM25 条件和 kNN 向量搜索内部用线性加权或 RRF 融合。Weaviate、Pinecone等现代向量数据库大多都增加了 BM25 或混合搜索的支持。但即使如此理解上述分离的原理也至关重要因为调优时你还是得知道里面发生了什么。总结实际工程的三个核心双索引同时维护一个倒排索引和一个向量索引。多路并发查询时间时并行发出汇合结果。排名融合用类似 RRF 这样不看绝对分数的技巧公平地合并两个排名。这就是现在绝大多数 RAG 系统在做“混合检索”时的落地方式。它不神秘就是把两种找资料的方法结合起来用“排名”而不是“分数”来达成共识。希望这样讲你能抓住它的工程内核。如果还有想深挖的点随时聊

拯救你的NVIDIA显示器色彩：novideo_srgb完整校准指南

拯救你的NVIDIA显示器色彩：novideo_srgb完整校准指南【免费下载链接】novideo_srgb Calibrate monitors to sRGB or other color spaces on NVIDIA GPUs, based on EDID data or ICC profiles 项目地址: https://gitcode.com/gh_mirrors/no/novideo_srgb 你…

2026/6/26 17:21:55 阅读更多

FigmaCN中文界面插件：5分钟消除语言障碍，设计师工作效率提升80%

FigmaCN中文界面插件：5分钟消除语言障碍，设计师工作效率提升80% 【免费下载链接】figmaCN 中文 Figma 插件，设计师人工翻译校验项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 你是否曾在Figma中迷失在英文菜单的海洋中&#…

2026/6/26 17:21:55 阅读更多

国内企业如何选择信创合规的DevOps工具？——嘉为蓝鲸全流程研运平台落地实践解析

在数字化转型持续深化与信创改造全面推进的双重背景下，国内政企、金融、能源、制造等行业的研发体系正面临系统性挑战。从市场趋势来看，信创产业已成为我国数字经济发展的战略基石——数据显示，2024年我国信创产业规模已突破1.5万亿元&#x…

2026/6/26 17:21:33 阅读更多

APT42攻击案例解析：短链+WhatsApp组合拳的社工攻击与防御

1. 从“短链WhatsApp”看现代社工攻击的范式转移最近在分析一些公开的威胁情报报告时，一个名为“短链WhatsApp组合拳”的攻击手法引起了我的注意。这并非某个独立黑客的奇思妙想，而是被追踪为APT42的、具有国家背景的威胁组织，针对以色列防务…

2026/6/26 18:57:48 阅读更多

Linux 5.10 总线机制与故障排查详解

1. 版本背景发布时间：2020年12月13日总线支持状态：PCIe 4.0完全支持，USB 3.2 Gen 2x2整合，设备树驱动全面采用关键里程碑： PCIe 4.0完整实现（16GT/s） USB 3.2 Gen 2x2支持（20Gbps） CXL 1.1初步支持设备树总线绑定标准化总线热插拔框架生产就绪 2. 子系统架构现…

2026/6/26 18:57:48 阅读更多

Nakajima箭图簇：从代数几何构造到Bialynicki-Birula分解

1. 从代数几何到表示论：一个箭图簇的诞生在代数几何与表示论的交叉地带，有一类空间因其丰富的结构和深刻的联系而备受关注，这就是箭图簇。想象一下，你有一张由点和箭头构成的“地图”（箭图），每个…

2026/6/26 18:56:45 阅读更多

3步掌握京东自动抢购神器：jd-happy让你的购物不再错过

3步掌握京东自动抢购神器：jd-happy让你的购物不再错过【免费下载链接】jd-happy [DEPRECATED]Node 爬虫，监控京东商品到货，并实现下单服务项目地址: https://gitcode.com/gh_mirrors/jd/jd-happy 想象一下这样的场景：你在…

2026/6/26 18:56:24 阅读更多

Naxsi集成LibInjection：构建智能WAF防御层实战指南

1. 项目概述：当Naxsi遇上LibInjection在Web应用防火墙（WAF）的世界里，Nginx生态下的Naxsi一直以其轻量、高效和规则驱动的特性，成为许多运维和开发人员对抗Web攻击的首选模块。它就像一个经验丰富的哨兵，通过…

2026/6/26 18:56:02 阅读更多

【2026出海技术选型】AWS vs 阿里云国际版深度评测：海外业务如何规划云架构？

在当前全球化和数字化浪潮下，企业出海（如跨境电商、海外独立站、游戏出海、SaaS 软件、AI 大模型应用等）已成为寻找新增长点的重要途径。对于出海架构师和开发者而言，选择一个稳定、合规、高性能的海外基础设施平台，是业务落地的“第一公里”。在全球云服务市场中，**AW…

2026/6/26 18:54:19 阅读更多

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

1. 项目概述：这不是一次普通模型更新，而是一次上下文能力的质变跃迁“Qwen2.5-Turbo上线阿里云百炼平台，模型上下文长度扩展至百万tokens”——这句话里藏着三个关键信号：Turbo不是简单提速，而是面向生产环境的工程化重…

2026/6/26 0:00:43 阅读更多

Kotlin的@JvmStatic与@JvmField：与Java互操作的注解

Kotlin作为一门现代编程语言，与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java，Kotlin提供了多种注解来优化互操作体验，其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:05 阅读更多

AI 驱动下 GEO 与 SEO 融合实战指南

摘要：本文深入探讨了从传统SEO到生成式搜索（GEO）的范式转移，为技术内容创作者揭示了新搜索生态下的挑战与机遇。面对大模型直接生成答案的趋势，单纯的关键词排名已不足以保证流量。文章系统性地提出了三大核心策略&…

2026/6/26 0:02:25 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/26 1:06:03 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/26 1:06:07 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 1:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/26 12:42:30 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…