Elasticsearch-01-文本检索算法

发布时间：2026/5/24 0:43:43

Elasticsearch-01-文本检索算法详解概述Elasticsearch作为强大的搜索和分析引擎提供了多种文本检索算法来满足不同的搜索需求。本文档将详细介绍两种核心的文本检索算法TF-IDF和BM25。1. TF-IDF算法基本原理TF-IDFTerm Frequency-Inverse Document Frequency是一种统计方法用于评估一个词在文档或语料库中的重要程度。TF-IDF值与一个词在文档中出现的次数成正比与该词在整个文档集合中出现的频率成反比。计算公式TF词频词在文档中出现的频率TF(t, d) (词t在文档d中出现的次数) / (文档d中的总词数)IDF逆文档频率衡量词的重要性IDF(t) log(文档总数 / 包含词t的文档数 1)TF-IDF得分TF-IDF(t, d) TF(t, d) × IDF(t)工作机制索引阶段计算每个文档中每个词的TF-IDF值查询阶段计算查询词与文档的相似度得分排序阶段根据得分对文档进行排序优点简单直观易于理解和实现对常见词如the、“is”进行降权适用于传统信息检索场景缺点无法处理同义词和语义相似性对文档长度敏感无法处理词序信息2. BM25算法基本原理BM25Best Matching 25是TF-IDF的改进版本是Elasticsearch默认使用的文本检索算法。它通过引入饱和函数和文档长度归一化来改进TF-IDF的性能。计算公式BM25的得分计算公式score(d, q) Σ (IDF(t) × (f(t, d) × (k1 1)) / (f(t, d) k1 × (1 - b b × (|d| / avgdl))))其中f(t, d)词t在文档d中的频率|d|文档d的长度avgdl平均文档长度k1控制词频饱和的参数通常为1.2-2.0b控制文档长度归一化的参数通常为0.75关键改进饱和函数防止高频词过度影响得分文档长度归一化考虑文档长度对相关性的影响参数可调可以通过调整k1和b参数优化搜索效果优点对文档长度不敏感对高频词有更好的控制在大多数场景下表现优于TF-IDFElasticsearch默认使用无需额外配置缺点参数调优相对复杂对于非常短的查询可能效果不佳3. 算法对比特性TF-IDFBM25文档长度敏感性高低高频词处理简单线性增长饱和函数控制参数调优简单相对复杂默认使用否是Elasticsearch适用场景传统信息检索现代搜索引擎4. 在Elasticsearch中的使用默认配置Elasticsearch默认使用BM25算法{settings:{index:{similarity:{default:{type:BM25}}}}}自定义配置可以调整BM25参数{settings:{index:{similarity:{my_bm25:{type:BM25,k1:1.5,b:0.75}}}}}5. 最佳实践对于大多数场景使用默认BM25算法短文本搜索考虑调整k1参数长文档搜索调整b参数控制文档长度影响性能优化合理设置分片数量和文档大小6. 总结BM25算法通过改进TF-IDF提供了更好的文本检索性能特别是在处理不同长度文档和抑制高频词方面。Elasticsearch默认使用BM25使其成为现代搜索应用的理想选择。理解这两种算法的原理和差异有助于根据具体需求选择合适的检索策略。

5个KV缓存优化技巧：让大模型推理速度提升300%

5个KV缓存优化技巧：让大模型推理速度提升300% 【免费下载链接】llama.cpp Port of Facebooks LLaMA model in C/C 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp 在大模型推理过程中，KV缓存（Key-Value Cache&#xff0…

2026/5/22 22:04:46 阅读更多

解锁DeepSeek-V3推理性能：从参数调优到实战部署的终极指南

解锁DeepSeek-V3推理性能：从参数调优到实战部署的终极指南【免费下载链接】DeepSeek-V3 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-V3 DeepSeek-V3作为新一代大语言模型，凭借卓越的推理能力和高效的部署方案，成为…

2026/5/22 6:26:27 阅读更多

FunASR热词识别终极指南：轻松上手解决专业术语识别难题

FunASR热词识别终极指南：轻松上手解决专业术语识别难题【免费下载链接】FunASR A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing …

2026/5/23 17:04:29 阅读更多

半导体设备精密零部件国产化：怎么找到真正进了产线验证的精密零部件厂

国产化热潮把一大批工厂推到了聚光灯下，却也带来了另一个麻烦：普通机加工厂批量涌入半导体精密零部件赛道，挂上"半导体级"“超洁净”"可替代进口"的招牌，展会上的展位和网页上的介绍几乎没有区别，…

2026/5/24 0:43:35 阅读更多

企业级条码处理方案：ZXing.Net在.NET生态中的架构实践与性能优化

企业级条码处理方案：ZXing.Net在.NET生态中的架构实践与性能优化【免费下载链接】ZXing.Net .Net port of the original java-based barcode reader and generator library zxing 项目地址: https://gitcode.com/gh_mirrors/zx/ZXing.Net 当你需要在.NET应用…

2026/5/24 0:42:35 阅读更多

吴恩达：2026年是AI的黄金时代？普通人如何抓住最后上车窗口？

本文讲述了AI教父Andrew Ng如何通过开放教育打破AI学习壁垒，推动Coursera等平台让全球学子受益。文章指出，当前AI领域瓶颈已从“会不会做”转向“做什么和怎么做”，工具链成熟使得普通人也有机会参与。Ng建议通过学AI课程、构建AI系统、在构建…

2026/5/24 0:42:35 阅读更多

构建可持续的阅读书源生态：从基础导入到高级管理策略

构建可持续的阅读书源生态：从基础导入到高级管理策略【免费下载链接】Yuedu 📚「阅读」自用书源分享项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 在数字阅读日益普及的今天，阅读APP已成为广大书迷获取内容的重要渠道。然而&…

2026/5/24 0:41:34 阅读更多

分布式系统测试：验证分布式系统的正确性和性能

分布式系统测试：验证分布式系统的正确性和性能一、分布式系统测试概述 1.1 分布式系统测试的定义分布式系统测试是指对分布式系统进行验证和评估的过程，包括功能测试、性能测试、可靠性测试和安全性测试等方面。它确保分布式系统在各种场景下都能正确、…

2026/5/24 0:41:34 阅读更多

一个好算力项目的诞生：从选址、建机房到上客户，全流程解密

本文揭示了算力项目成功的关键要素，强调选址、建机房、拉客户和持续运营的重要性。文章详细阐述了选址的四大维度（电力、网络、政策、客户近场），建机房的三步流程（基础工程、集成安装、环境监测）&#xff0…

2026/5/24 0:41:14 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

5个KV缓存优化技巧：让大模型推理速度提升300%

解锁DeepSeek-V3推理性能：从参数调优到实战部署的终极指南

FunASR热词识别终极指南：轻松上手解决专业术语识别难题

半导体设备精密零部件国产化：怎么找到真正进了产线验证的精密零部件厂

企业级条码处理方案：ZXing.Net在.NET生态中的架构实践与性能优化

吴恩达：2026年是AI的黄金时代？普通人如何抓住最后上车窗口？

构建可持续的阅读书源生态：从基础导入到高级管理策略

分布式系统测试：验证分布式系统的正确性和性能

一个好算力项目的诞生：从选址、建机房到上客户，全流程解密

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥