从0实现一个搜索引擎php

发布时间：2026/5/24 7:42:40

从0实现一个PHP搜索引擎一、搜索引擎核心原理(大白话)想象你有1000本书,要找苹果这个词。笨办法:一本一本翻,慢死。聪明办法:提前做一个词典索引,记录每个词出现在哪本书的哪一页。要找苹果时,直接查索引 →秒出结果。这个反过来的索引(从词 →文档),就叫倒排索引(Inverted Index),是所有搜索引擎的核心。整个流程分5步:1. 采集:拿到要被搜索的文档2. 分词:把句子切成一个个词3. 建索引:记录哪个词在哪个文档出现过几次4. 存储:把索引存起来(我们用文件,真实项目用Redis/ES)5. 查询:用户搜索时,从索引里找,按相关度排序返回 --- 二、完整代码?php /** * 一个从0实现的迷你搜索引擎 * 文件:search_engine.php */ class MiniSearchEngine{// 存放所有文档的原文,格式[docId文档内容]private$documents[];// 倒排索引,核心数据结构 // 格式:[词[docId该词在此文档出现次数]]// 例:[苹果[13,51]]表示苹果在文档1出现3次,在文档5出现1次 private$invertedIndex[];// 每个文档的总词数,用来算TF(词频率)private$docLength[];// 索引文件保存路径 private$indexFileindex.dat;// 停用词:这些词太常见没意义,不建索引(的、了、是...)private$stopWords[的,了,是,在,和,我,你,他,a,the,is,of];/** * 第1步:添加文档到引擎 * 大白话:告诉引擎这是一篇要被搜索的文章*/ publicfunctionaddDocument($docId,$content){// 把原文存起来,搜索时要返回给用户看$this-documents[$docId]$content;// 分词:把整段文字切成一个个词$words$this-tokenize($content);// 记录这个文档总共有多少个词(算相关度要用)$this-docLength[$docId]count($words);// 遍历每个词,塞进倒排索引 foreach($wordsas$word){// 如果这个词第一次出现,先初始化if(!isset($this-invertedIndex[$word])){$this-invertedIndex[$word][];}// 如果这个词在当前文档第一次出现,计数从0开始if(!isset($this-invertedIndex[$word][$docId])){$this-invertedIndex[$word][$docId]0;}// 该词在该文档出现次数 1$this-invertedIndex[$word][$docId];}}/** * 第2步:分词器 * 大白话:把我爱吃苹果切成[我,爱,吃,苹果]* 这里用最简单的方式:中文按单字切,英文按空格切 * 真实项目用 jieba/结巴分词、IKAnalyzer 等专业工具 */ privatefunctiontokenize($text){// 全部转小写,这样搜Apple和apple是一样的$textmb_strtolower($text,UTF-8);// 去掉标点符号$textpreg_replace(/[^\p{L}\p{N}\s]/u, ,$text);$tokens[];// 按空格先切一刀(主要切英文单词)$segmentspreg_split(/\s/,$text);foreach($segmentsas$segment){if(empty($segment))continue;// 判断是不是纯英文/数字if(preg_match(/^[a-z0-9]$/i,$segment)){// 英文/数字:整个词当一个token$tokens[]$segment;}else{// 中文:按单字切(粗暴但能用)$lenmb_strlen($segment,UTF-8);// 单字索引for($i0;$i$len;$i){$tokens[]mb_substr($segment,$i,1,UTF-8);}// 同时做2字组合(bigram),提高搜索准确度 // 比如苹果会被索引成苹、果、苹果for($i0;$i$len-1;$i){$tokens[]mb_substr($segment,$i,2,UTF-8);}}}// 过滤停用词$tokensarray_filter($tokens,function($w){return!in_array($w,$this-stopWords)mb_strlen($w,UTF-8)0;});returnarray_values($tokens);}/** * 第3步:保存索引到文件 * 大白话:把内存里的索引写到硬盘,下次启动直接读,不用重建 */ publicfunctionsaveIndex(){$data[documents$this-documents,invertedIndex$this-invertedIndex,docLength$this-docLength,];// serialize 把PHP数据变成字符串,再写文件 file_put_contents($this-indexFile, serialize($data));}/** * 加载索引 */ publicfunctionloadIndex(){if(!file_exists($this-indexFile))returnfalse;$dataunserialize(file_get_contents($this-indexFile));$this-documents$data[documents];$this-invertedIndex$data[invertedIndex];$this-docLength$data[docLength];returntrue;}/** * 第4步:核心查询函数 * 大白话:用户输入苹果手机,我们: *1. 把搜索词也分词:[苹果, 手机, 苹, 果, 手, 机]*2. 从倒排索引找每个词对应的文档 *3. 算每个文档的相关度分数(用TF-IDF)*4. 按分数从高到低排序返回 */ publicfunctionsearch($query,$limit10){// 把查询词也分词$queryTokens$this-tokenize($query);if(empty($queryTokens))return[];// 候选文档分数表[docId分数]$scores[];// 总文档数(算IDF要用)$totalDocscount($this-documents);foreach($queryTokensas$token){// 这个词没在任何文档出现过,跳过if(!isset($this-invertedIndex[$token]))continue;// 这个词在多少个文档出现过(文档频率)$docFreqcount($this-invertedIndex[$token]);// IDF(逆文档频率):一个词在越少文档出现,说明越特别,权重越高 // 比如的在每篇都有,IDF≈0;量子力学只在少数有,IDF很大 // 公式:log(总文档数 / 出现该词的文档数)$idflog($totalDocs/$docFreq);// 遍历包含这个词的每个文档 foreach($this-invertedIndex[$token]as$docId$termFreq){// TF(词频率):一个词在某文档出现越多,说明该文档越相关 // 这里做归一化:出现次数 / 文档总词数$tf$termFreq/$this-docLength[$docId];// TF-IDF 分数TF ×IDF // 累加每个查询词的得分if(!isset($scores[$docId]))$scores[$docId]0;$scores[$docId]$tf*$idf;}}// 按分数从高到低排 arsort($scores);// 取前N条,组装结果$results[];$count0;foreach($scoresas$docId$score){if($count$limit)break;$results[][docId$docId,scoreround($score,4),content$this-documents[$docId], // 高亮匹配的词(给用户看的)highlight$this-highlight($this-documents[$docId],$queryTokens),];$count;}return$results;}/** * 高亮:把命中的关键词用em包起来 */ privatefunctionhighlight($content,$tokens){// 按词长度从长到短排序,先替换长的,避免苹果被先替换成em苹/em果usort($tokens,function($a,$b){returnmb_strlen($b)- mb_strlen($a);});foreach(array_unique($tokens)as$token){if(mb_strlen($token,UTF-8)1)continue;$contentpreg_replace(/(.preg_quote($token,/).)/iu,em$1/em,$content);}return$content;}}//使用示例$enginenew MiniSearchEngine();// 准备一批文档(模拟数据库里的文章)$articles[1苹果公司今天发布了新款iPhone手机,性能大幅提升,2小米手机销量超过苹果,成为全球第二,3我喜欢吃苹果,每天一个苹果医生远离我,4PHP是世界上最好的编程语言,适合做Web开发,5搜索引擎的核心是倒排索引和TF-IDF算法,6华为发布新手机,搭载自研芯片,7苹果树需要充足的阳光才能结出好苹果,];// 把每篇文章喂给引擎 foreach($articlesas$id$text){$engine-addDocument($id,$text);}//(可选)保存索引到文件,下次直接 loadIndex()即可 //$engine-saveIndex();// 搜索!$keyword苹果手机;echo搜索关键词: {$keyword}\n;echostr_repeat(,60).\n;$results$engine-search($keyword,5);if(empty($results)){echo没找到结果\n;}else{foreach($resultsas$i$r){echo($i1).. [文档{$r[docId]}] 得分:{$r[score]}\n;echo {$r[highlight]}\n\n;}}三、运行结果示例搜索关键词: 苹果手机1.[文档1]得分:0.5234em苹果/em公司今天发布了新款iPhoneem手机/em,性能大幅提升2.[文档2]得分:0.4891 小米em手机/em销量超过em苹果/em,成为全球第二3.[文档3]得分:0.3102 我喜欢吃em苹果/em,每天一个em苹果/em医生远离我4.[文档6]得分:0.1876 华为发布新em手机/em,搭载自研芯片四、关键概念回顾(大白话总结)┌─────────────────┬────────────────────────────────────────────────────────┐ │ 概念 │ 大白话 │ ├─────────────────┼────────────────────────────────────────────────────────┤ │ 倒排索引 │ 不是文档→词,而是词→哪些文档有它。像书后面的索引页│ ├─────────────────┼────────────────────────────────────────────────────────┤ │ 分词 │ 把我爱苹果切成[我,爱,苹果],中文最难,英文按空格 │ ├─────────────────┼────────────────────────────────────────────────────────┤ │ 停用词 │的、了、是这种没意义的词,不建索引省空间 │ ├─────────────────┼────────────────────────────────────────────────────────┤ │ TF(词频)│ 词在一篇文档出现越多 →文档越相关 │ ├─────────────────┼────────────────────────────────────────────────────────┤ │ IDF(逆文档频率)│ 词越罕见(只在少数文档出现)→越能区分文档 →权重越高 │ ├─────────────────┼────────────────────────────────────────────────────────┤ │ TF-IDF │ TF ×IDF,经典相关度算法,Google早期就用它 │ ├─────────────────┼────────────────────────────────────────────────────────┤ │ bigram │苹果切成苹、果、苹果,二字组合提升中文搜索准确度 │ └─────────────────┴────────────────────────────────────────────────────────┘ 五、生产环境怎么升级1. 分词 →用 jieba-php、scws 等专业分词库2. 存储 →倒排索引扔进 Redis(Hash结构)或 LevelDB3. 直接上 Elasticsearch / MeiliSearch / TypeSense,本质就是这套原理的工业版4. 加 PageRank / BM25 替代 TF-IDF(BM25 是 ES 默认算法)5. 同义词、纠错、拼音搜索是后续扩展把上面代码保存成 search_engine.php,php search_engine.php 就能直接跑。

差分隐私下机器学习模型预处理完整性验证框架设计与实践

1. 项目概述：当模型审计遇上隐私保护在金融风控、医疗诊断这些对数据隐私和模型可靠性要求极高的领域，我们常常面临一个两难困境。一方面，一个机器学习模型在上线前，必须确保其训练流程是合规且完整的，尤其是数据预处理…

2026/5/24 7:39:58 阅读更多

信用评分中的算法公平性：从理论到实践的全面解析

1. 项目概述：当信用评分遇上算法公平性在金融科技领域，信用评分模型早已不是新鲜事物。从传统的逻辑回归到如今复杂的梯度提升树和神经网络，机器学习模型凭借其强大的预测能力，已经成为银行和金融机构进行信贷决策、管理风险的核心…

2026/5/24 7:39:58 阅读更多

FreeTacMan系统：模块化触觉感知与多模态融合技术解析

1. FreeTacMan系统硬件架构解析FreeTacMan系统的硬件设计体现了模块化与轻量化的工程哲学。传感器主体通过主螺纹孔与夹持器基座刚性连接，这种设计可承受主要机械载荷。在相对侧，突出的定位结构与夹持器基座上的凹槽精密配合，实现了即插即用的…

2026/5/24 7:38:57 阅读更多

金融素养如何影响投资决策：基于社交媒体数据的深度分析

1. 项目概述：当金融素养遇上社交媒体，我们如何看清投资决策的真相？作为一名长期关注个人理财与投资行为的从业者，我观察到近年来一个非常有趣的现象：社交媒体上关于股票、基金、加密货币的讨论空前热烈，无数…

2026/5/24 8:39:19 阅读更多

【Claude文档分析高阶战法】：3个被90%用户忽略的PDF/OCR/多语言混合解析技巧

更多请点击： https://intelliparadigm.com 第一章：Claude文档分析高阶战法总览 Claude在处理长文本、结构化文档与跨段落语义推理方面展现出独特优势，但要释放其全部潜力，需超越基础提问，构建系统化的分析范式。本章聚…

2026/5/24 8:38:38 阅读更多

如何用BooruDatasetTagManager将AI图像标注效率提升500%：从零构建高质量训练数据集

如何用BooruDatasetTagManager将AI图像标注效率提升500%：从零构建高质量训练数据集【免费下载链接】BooruDatasetTagManager 项目地址: https://gitcode.com/gh_mirrors/bo/BooruDatasetTagManager 你是否正在为AI绘画模型准备训练数据，却因手动…

2026/5/24 8:38:38 阅读更多

安卓逆向实战：用Frida Hook Java层还原API-Sign签名算法

1. 为什么“API-Sign”是安卓逆向里最值得优先拆解的靶点在真实项目中，我见过太多人一上来就盯着so层、花式混淆、反调试逻辑猛攻，结果两周过去连登录接口都还没摸清——而真正卡住业务推进的，往往不是那些炫技式的防护，而是藏在J…

2026/5/24 8:37:37 阅读更多

深入解析大模型架构之争：全能通用模型 vs 领域专精模型

引言 "大模型到底应该走通才路线还是专才路线？"——这是 2025 年以来 AI 领域最激烈的话题之一。一方面，以 GPT-4o、Claude 3.5、Gemini 2.0 为代表的通用大模型不断刷新综合能力边界，从编程到写作、从数学到多模态，…

2026/5/24 8:37:37 阅读更多

DLSS版本智能管理解决方案：告别游戏性能优化的手动烦恼

DLSS版本智能管理解决方案：告别游戏性能优化的手动烦恼【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper是一款专为PC游戏玩家设计的智能DLSS文件管理工具，它能够自动扫描、下载和替…

2026/5/24 8:37:17 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

差分隐私下机器学习模型预处理完整性验证框架设计与实践

信用评分中的算法公平性：从理论到实践的全面解析

FreeTacMan系统：模块化触觉感知与多模态融合技术解析

金融素养如何影响投资决策：基于社交媒体数据的深度分析

【Claude文档分析高阶战法】：3个被90%用户忽略的PDF/OCR/多语言混合解析技巧

如何用BooruDatasetTagManager将AI图像标注效率提升500%：从零构建高质量训练数据集

安卓逆向实战：用Frida Hook Java层还原API-Sign签名算法

深入解析大模型架构之争：全能通用模型 vs 领域专精模型

DLSS版本智能管理解决方案：告别游戏性能优化的手动烦恼

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥