混合检索实现：关键词+语义检索的完美结合

发布时间：2026/5/27 9:05:43

混合检索实现关键词语义检索的完美结合前言单一的检索方式往往无法满足复杂需求。将关键词检索与语义检索结合可以显著提升检索质量兼顾精确匹配和语义理解。我在多个搜索系统中实现过混合检索今天分享一些实战经验。混合检索架构核心架构from typing import List, Dict, Any import numpy as np from rank_bm25 import BM25Okapi class HybridRetriever: 混合检索器 def __init__(self, vector_db, keyword_dbNone): self.vector_db vector_db self.keyword_db keyword_db or BM25Index() self.vector_weight 0.6 self.keyword_weight 0.4 def set_weights(self, vector_weight, keyword_weight): 设置权重 self.vector_weight vector_weight self.keyword_weight keyword_weight def search(self, query: str, query_embedding: np.ndarray, top_k: int 10): 混合检索 # 并行获取两种检索结果 vector_results self.vector_db.search(query_embedding, top_ktop_k*2) keyword_results self.keyword_db.search(query, top_ktop_k*2) # 结果融合 combined self._merge_results(vector_results, keyword_results) # 重新排序 reranked self._rerank(combined, query, top_k) return reranked def _merge_results(self, vector_results, keyword_results): 合并检索结果 # 构建结果字典 results_dict {} for item in vector_results: doc_id item[id] results_dict[doc_id] { **item, vector_score: item[score], keyword_score: 0.0 } for item in keyword_results: doc_id item[id] if doc_id in results_dict: results_dict[doc_id][keyword_score] item[score] else: results_dict[doc_id] { **item, vector_score: 0.0, keyword_score: item[score] } return list(results_dict.values()) def _rerank(self, results, query, top_k): 重新排序 for item in results: item[hybrid_score] ( self.vector_weight * item[vector_score] self.keyword_weight * item[keyword_score] ) # 按混合分数排序 results.sort(keylambda x: x[hybrid_score], reverseTrue) return results[:top_k]关键词检索实现import jieba from collections import defaultdict class BM25Index: BM25 关键词索引 def __init__(self): self.bm25 None self.documents [] self.tokenized_docs [] def add_document(self, doc_id: str, content: str, metadata: Dict None): 添加文档 self.documents.append({ id: doc_id, content: content, metadata: metadata or {} }) self.tokenized_docs.append(self._tokenize(content)) def _tokenize(self, text: str): 分词 return list(jieba.cut(text)) def build_index(self): 构建索引 self.bm25 BM25Okapi(self.tokenized_docs) def search(self, query: str, top_k: int 10): BM25 检索 if self.bm25 is None: self.build_index() query_tokens self._tokenize(query) scores self.bm25.get_scores(query_tokens) # 获取top-k结果 top_indices np.argsort(scores)[::-1][:top_k] results [] for idx in top_indices: results.append({ id: self.documents[idx][id], content: self.documents[idx][content], metadata: self.documents[idx][metadata], score: float(scores[idx]) }) return results高级融合策略基于分数归一化的融合class NormalizedHybridRetriever(HybridRetriever): 归一化混合检索器 def _merge_results(self, vector_results, keyword_results): 归一化后合并结果 # 收集所有分数 vector_scores [item[score] for item in vector_results] keyword_scores [item[score] for item in keyword_results] # 归一化 if vector_scores: v_min, v_max min(vector_scores), max(vector_scores) if v_max v_min: for item in vector_results: item[norm_vector_score] (item[score] - v_min) / (v_max - v_min) else: for item in vector_results: item[norm_vector_score] 1.0 if keyword_scores: k_min, k_max min(keyword_scores), max(keyword_scores) if k_max k_min: for item in keyword_results: item[norm_keyword_score] (item[score] - k_min) / (k_max - k_min) else: for item in keyword_results: item[norm_keyword_score] 1.0 return super()._merge_results(vector_results, keyword_results) def _rerank(self, results, query, top_k): 使用归一化分数重新排序 for item in results: item[hybrid_score] ( self.vector_weight * item.get(norm_vector_score, 0.0) self.keyword_weight * item.get(norm_keyword_score, 0.0) ) results.sort(keylambda x: x[hybrid_score], reverseTrue) return results[:top_k]基于学习的重排序from sklearn.ensemble import GradientBoostingClassifier from sklearn.preprocessing import StandardScaler class LearnedReranker: 基于学习的重排序器 def __init__(self): self.model GradientBoostingClassifier() self.scaler StandardScaler() self.is_trained False def extract_features(self, query, doc, vector_score, keyword_score): 提取特征 features [ vector_score, keyword_score, len(query) / len(doc[content]) if doc[content] else 0, sum(1 for q in query.split() if q in doc[content]), vector_score * keyword_score ] return features def train(self, queries, docs, labels): 训练模型 X [] y [] for query, doc_candidates, relevance in zip(queries, docs, labels): for doc, vec_score, key_score, rel in zip( doc_candidates[docs], doc_candidates[vector_scores], doc_candidates[keyword_scores], relevance ): features self.extract_features(query, doc, vec_score, key_score) X.append(features) y.append(rel) X self.scaler.fit_transform(X) self.model.fit(X, y) self.is_trained True def rerank(self, query, results): 重排序 if not self.is_trained: return results X [] for item in results: features self.extract_features( query, item, item[vector_score], item[keyword_score] ) X.append(features) X self.scaler.transform(X) scores self.model.predict_proba(X)[:, 1] for item, score in zip(results, scores): item[learned_score] score results.sort(keylambda x: x[learned_score], reverseTrue) return results完整检索流程class CompleteSearchSystem: 完整搜索系统 def __init__(self, embedding_model, vector_db): self.embedding_model embedding_model self.vector_db vector_db self.keyword_index BM25Index() self.hybrid_retriever NormalizedHybridRetriever(vector_db, self.keyword_index) self.reranker None def index_document(self, doc_id: str, content: str, metadata: Dict None): 索引文档 # 添加到关键词索引 self.keyword_index.add_document(doc_id, content, metadata) # 添加到向量索引 embedding self.embedding_model.encode(content) self.vector_db.upsert(doc_id, embedding, metadata) def index_batch(self, documents): 批量索引 for doc in documents: self.index_document(doc[id], doc[content], doc.get(metadata)) def search(self, query: str, top_k: int 10): 搜索 # 生成查询 embedding query_embedding self.embedding_model.encode(query) # 混合检索 results self.hybrid_retriever.search(query, query_embedding, top_ktop_k) # 可选学习重排序 if self.reranker: results self.reranker.rerank(query, results) return results总结混合检索的核心要点多检索源关键词语义双重保障分数融合权重可调灵活适配归一化确保不同分数可比较学习重排序进一步提升质量关键实践从简单权重融合开始根据场景调整权重考虑使用归一化分数有数据时加入学习重排序

CodeIsland：利用MacBook动态岛打造AI编码助手全局控制中心

1. 项目概述：当AI编码助手遇上MacBook刘海屏如果你和我一样，日常开发重度依赖Claude Code这类AI编码助手，那你一定对下面这个场景深恶痛绝：你同时开着五六个终端会话，每个会话里Claude都在不同的项目里干活。一个会话在…

2026/5/27 9:04:57 阅读更多

技术解决方案：Get-cookies.txt-LOCALLY - 本地化Cookie数据管理架构

技术解决方案：Get-cookies.txt-LOCALLY - 本地化Cookie数据管理架构【免费下载链接】Get-cookies.txt-LOCALLY Get cookies.txt, NEVER send information outside. 项目地址: https://gitcode.com/gh_mirrors/ge/Get-cookies.txt-LOCALLY Get-cookies.txt-L…

2026/5/27 9:04:35 阅读更多

番茄小说下载器完整指南：免费构建个人数字图书馆的终极解决方案

番茄小说下载器完整指南：免费构建个人数字图书馆的终极解决方案【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 还在为网络不稳定时无法阅读小说而烦恼&#xff1f…

2026/5/27 9:03:51 阅读更多

Atom-7B-Chat-openmind与Llama2对比：中文能力提升的10个关键点

Atom-7B-Chat-openmind与Llama2对比：中文能力提升的10个关键点【免费下载链接】Atom-7B-Chat-openmind 项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/Atom-7B-Chat-openmind 在大语言模型快速发展的今天，中文自然语言处理能力成为衡量…

2026/5/27 9:56:47 阅读更多

WizardLM-13B-Uncensored微调教程：如何定制专属AI助手

WizardLM-13B-Uncensored微调教程：如何定制专属AI助手【免费下载链接】WizardLM-13B-Uncensored 项目地址: https://ai.gitcode.com/hf_mirrors/cognitivecomputations/WizardLM-13B-Uncensored WizardLM-13B-Uncensored是一款强大的开源AI模型&#xff0c…

2026/5/27 9:55:44 阅读更多

小米第一季营收991亿：净利47亿再启动200亿股份回购计划

雷递网雷建平 5月26日在经过连续多个季度的业绩高速增长后，小米集团（HK01810）在2026年第一季度发展遭遇到不小挑战。小米集团今日发布2026年第一季度业绩公告。财报显示，小米2026年第一季度营收991亿元，较上年同期的1…

2026/5/27 9:55:44 阅读更多

CUPS打印系统战略部署指南：企业级打印架构深度解析

CUPS打印系统战略部署指南：企业级打印架构深度解析【免费下载链接】cups OpenPrinting CUPS Sources 项目地址: https://gitcode.com/gh_mirrors/cup/cups OpenPrinting CUPS作为业界标准的开源打印解决方案，为Linux和类Unix系统提供了现代化、基…

2026/5/27 9:55:44 阅读更多

TinyLlama-1.1B-Chat-v0.4未来发展路线图：下一代小型AI模型展望

TinyLlama-1.1B-Chat-v0.4未来发展路线图：下一代小型AI模型展望【免费下载链接】TinyLlama-1.1B-Chat-v0.4 项目地址: https://ai.gitcode.com/hf_mirrors/LF_AICC/TinyLlama-1.1B-Chat-v0.4 TinyLlama-1.1B-Chat-v0.4作为轻量级AI对话模型，凭借…

2026/5/27 9:54:56 阅读更多

MCP协议如何革新银行系统：打破孤岛，构建AI驱动的金融能力中台

1. 项目概述：当银行遇见MCP服务器最近在金融科技圈里，一个叫Nymbus的团队搞出了点动静，他们发布了一个号称是“银行业第一个MCP服务器”的东西。如果你对“MCP”这个词还感到陌生，那太正常了，这玩意儿在传统银行的技术…

2026/5/27 9:54:35 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章

CodeIsland：利用MacBook动态岛打造AI编码助手全局控制中心

技术解决方案：Get-cookies.txt-LOCALLY - 本地化Cookie数据管理架构

番茄小说下载器完整指南：免费构建个人数字图书馆的终极解决方案

Atom-7B-Chat-openmind与Llama2对比：中文能力提升的10个关键点

WizardLM-13B-Uncensored微调教程：如何定制专属AI助手

小米第一季营收991亿：净利47亿 再启动200亿股份回购计划

CUPS打印系统战略部署指南：企业级打印架构深度解析

TinyLlama-1.1B-Chat-v0.4未来发展路线图：下一代小型AI模型展望

MCP协议如何革新银行系统：打破孤岛，构建AI驱动的金融能力中台

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

中国AI岗位暴涨12倍，13种你没听过的AI岗位

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

小米第一季营收991亿：净利47亿再启动200亿股份回购计划