我开始怀疑RAG了：从GraphRAG到TreeRAG的一次踩坑实录

发布时间：2026/5/23 20:22:56

引言最近在折腾RAG从最传统的“切chunk embedding检索”一路试到GraphRAG、LightRAG最后发现很多问题可能根本不在模型而在“文档结构”本身。尤其在制度、流程、医疗这类强结构化场景里Chunk切分会破坏上下文Graph又容易被高频关键词污染。后来我换了个思路不再重点“建图”而是先让LLM把文档重新整理成层级清晰的Markdown再基于标题结构“建树”做检索。效果居然稳定了很多。更有意思的是后来逛GitHub时发现PageIndex这个30k star的项目也在往类似方向发展只不过它更进一步直接让Agent去探索文档树彻底抛弃了embedding那一套流程。这篇文章主要记录一下我从传统RAG一路踩坑到开始重新思考“Tree RAG / Agentic RAG”的整个过程。一、传统RAG切块、向量化然后开始“碰运气”最近在做RAG把“切块 -- 向量化 -- 相似度检索”这一套尝试一通后发现召回的chunk大都是与query不相关的。无它唯幻觉尔emm…二、GraphRAG和LightRAG更复杂了但没强多少既然上述传统RAG不好用那就试试比较火的GraphRAG吧。又是一通调研发现微软开源的GraphRAG有个致命缺点慢贵。接着调研发现了HKU开源的轻量级LightRAG。是的这名字听上去就很“轻量”。于是直接git拉代码一顿操作终于部署到本地RTX 3060设备上了。把代码跑起来进入到LightRAG的web界面上传了好几个本地文件啥格式都有。等待处理等待几分钟后处理好了知识库准备完毕。LightRAG设置了好几种检索模式我测试了推荐的“混合模式”也就是将多种召回方式的结果综合一下作为最终的召回结果。看了它召回的chunk比传统RAG那一套稍微好了一点但因为没有做系统化的评测也只是随机选了几个问题用瞪眼法来评估的所以有很大的主观性。即使是好了一点也只是好了“一点”远远达不到落地可用的水平。三、问题到底出在哪算法还是数据RAG这东西和模型训练的针对性优化方向是相似的数据算法先来看数据。我的数据啥格式都有我用微软开源的markitdown统一成了markdown格式直接喂给RAG框架。仔细查看转换后的markdown文件发现很多层级标题都是乱的而且还带着各种脚注、页码、页眉等信息。这逆天的数据混乱程度。再来看算法。这里的算法更像是搜索算法本质上就是做基于“相似度计算”的召回后续把与query比较相似的chunk统统取出来丢给llm等llm吐答案给到用户就好了。传统RAG的query就是用户的问题LightRAG的query表面上也是用户的问题但是内部会根据用户问题拆解出来好几个关键词实体节点和关键词值之间的联结实体关系边。在“混合检索”模式下最终用于检索的query实体关系原始query兵分多路做检索还会基于“Graph”结构做多跳查询最后再做合并归纳。算法貌似没啥大问题。再看数据。除了数据混乱外每个chunk都是按照固定长度切分的万一把关键句子给截断了那么整个chunk的embedding向量的语义就变了。此外用户提问的问题肯定先强制肯定都是基于这些数据所包含的内容的在我这个应用场景下专门针对应用场景分析下用户query的某些“语义信息丰富”的关键词其实会频繁的出现在很多chunk中比如“制度”“患者”这种这就导致一部分基于关键词的查询其实是没有意义的。数据不行跳多少次也没用只是瞎猫去碰死耗子罢了。四、找到突破口了从“建图”到“建树”算法差不多就那样了而现在已经发现了数据的缺陷那就从数据入手展开优化吧。基于Graph的RAG本质上是基于文档来构建一张Light RAG是多张图具体做法是把文档丢给llm做实体抽取和关系识别。但是上面说过在我的场景里“语义信息丰富”的关键词会频繁的出现在很多chunk中所以Graph这一套不好用了。不如这样同样是把文档丢给llm但是给llm的提示词是把文档根据全文语义做重新排版生成标题层次清晰标题语义明确的markdown文件。标题通常很短噪声很少语义很集中。这样一来每个标题本身就蕴含了丰富的语义信息这些层级标题天然的形成了“一棵树”三级标题是三级标题对应chunk的父节点三级标题对应chunk的祖先路径节点是一级标题–二级标题–三级标题。同时也不用再手动切分chunk了每个最小层级标题下的内容本身就是一个chunkllm做了详细的层级拆解目前没有遇到超长chunk的情况那就先这样。由于这些树的节点本身蕴含了非常丰富的语义信息因此在做相似度检索时直接把query和这些节点也就是层级标题做相似度计算就好了。然后选择相似度top-k个节点把对应的chunk全取出来去重后直接作为召回的chunk。最后再把传统的RAG作为一路召回分支集成到上述方案中就得到了基于树的双路召回方案两路召回结果去重后丢给llm等待答案输出就好了。五、最终方案从原始文件到Tree RAG知识库先建数据库建库分两步。第一针对多种格式不同来源的文件vibe一个基于web的平台实现从“源文件–原始信息提取–llm层次化整理”的“一键批量执行”。第二把第一步得到的.md文件按照如上所述基于树的方法存入向量数据库。我的向量数据库用的是milvus基于docker部署。入库时记录每个chunk的父节点和完整的祖先路径等多维度信息方便后续检索。建库完成后直接查询就好了。六、后来我发现PageIndex居然也是这么干的逛GitHub发现一个叫做PageIndex的开源项目也采用了基于树的RAG方案不过它这个更彻底直接弃用了embedding相似度计算那一套转而全面拥抱了agent。同样基于llmPageIndex将每个文档抽取成一棵树树的每个节点都配备对该节点的一段文字描述有点像skills文件的description然后让agent带着用户的query去探索这棵树看看哪些节点与query高度相关通过反复的探索让agent综合分析后给出答案。七、最近用Claude Code / Cursor后我开始重新思考RAG确实agentic RAG应该是未来的趋势了。最近在用Claude Code / Cursor时我直接把query丢给agent它自己就从原始文档里面找到答案了而且给出的结果比RAG强多了。这样做的好处显而易见1直接探索原始文档没有任何的信息压缩embedding那一套直接把信息压缩到了一个向量没有任何的文本切分上下文信息被完整保留下来2这种边推理边搜索的agentic方式不再像RAG那样局限在top-k个chunk一旦llm感到困惑会让agent调用工具搜集更多信息缺啥就补啥从而减少幻觉。那既然agent自己这么厉害了PageIndex这类方案的存在又有什么意义呢有当遇到文档巨多的情况时纯agent探索的方式固然可用但是要在海量文档中找答案可不是一个简单的事情agent要执行更多轮的工具调用进行反复的思考和决策这本身是一个非常耗时耗钱(token)的事。在这个时候如果提前能把海量文档的层级抽象成“一棵树”那么agent只需要探索这棵树去找答案就好了既省钱又省时间。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI动态简报之算力基建篇（2026.05.23）

关注方向：大模型 GPU算力 AI芯片云计算大模型API⚡ 第1条：智谱GLM-5.1高速版API刷新全球速度上限核心信息：智谱发布GLM-5.1高速版API（GLM-5.1-highspeed），输出速度达400 tokens/s，刷新全球…

2026/5/23 20:22:36 阅读更多

AI Agent游戏测试革命：自动生成10万+边界用例，覆盖率提升3.2倍——附可运行Python测试Agent源码

更多请点击： https://intelliparadigm.com 第一章：AI Agent游戏行业应用全景图 AI Agent 正在重塑游戏开发、运营与玩家体验的全生命周期。从智能NPC的行为建模，到自动化测试与关卡生成，再到实时个性化内容推荐与反作弊决策&…

2026/5/23 20:21:55 阅读更多

阿里云ACP云计算| 20人团考全员通过，恭喜！

2026/5/23 20:21:55 阅读更多

大脑规则：为什么你学不进去？10个科学方法提升学习效率

大脑规则：为什么你学不进去？10个科学方法提升学习效率副标题: 从进化论到认知科学，附实战学习方案一、痛点：为什么你总是学不进去？你有没有这样的经历：坐在书桌前，书翻开了，但脑子一片空白熬夜学习，第二天效率更低，形成恶性循环一边看视频一边回消息，结果什…

2026/5/24 0:39:54 阅读更多

Claude+Query Store双引擎协同优化（仅限AWS RDS与Azure SQL托管实例的私有API调用指南）

更多请点击： https://intelliparadigm.com 第一章：ClaudeQuery Store双引擎协同优化（仅限AWS RDS与Azure SQL托管实例的私有API调用指南） Claude 语言模型与 SQL Server Query Store 的深度协同，为云数据库性能治理提…

2026/5/24 0:39:13 阅读更多

【独家首发】Claude代码生成能力黄金分级标准（L1-L5）：附赠可落地的团队接入评估清单（限前500名下载）

更多请点击： https://kaifayun.com 第一章：Claude代码生成能力测试的底层逻辑与评估范式 Claude的代码生成能力并非基于传统规则引擎或模板填充，而是依托于其大规模代码语料预训练、跨语言语法结构建模以及上下文感知的推理机制。评估其表现…

2026/5/24 0:39:13 阅读更多

书匠策AI毕业论文全流程拆解：2025年写论文竟然可以这样“躺赢“？

——一个教育博主的真实测评，带你看懂AI写论文到底能帮到什么程度各位正在跟毕业论文"死磕"的小伙伴们，先别急着关掉这篇文章。我做论文写作科普这么多年，收到最多的私信就是："老师，我选题选不出来怎…

2026/5/24 0:37:32 阅读更多

《离别的最后》的内容入口：收尾场景如何被记住

从内容传播角度看，《离别的最后》的入口在“最后”这个收束动作。它不是笼统告别，而是写到一段关系、一个阶段或一次转身即将落下尾音的时刻。这首歌不适合被写成普通伤感推荐。更准确的角度，是把它放在收尾场景里：删掉草稿、收起…

2026/5/24 0:33:50 阅读更多

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…

2026/5/24 0:32:49 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

AI动态简报之算力基建篇（2026.05.23）

AI Agent游戏测试革命：自动生成10万+边界用例，覆盖率提升3.2倍——附可运行Python测试Agent源码

阿里云ACP云计算| 20人团考全员通过，恭喜！

大脑规则：为什么你学不进去？10个科学方法提升学习效率

Claude+Query Store双引擎协同优化（仅限AWS RDS与Azure SQL托管实例的私有API调用指南）

【独家首发】Claude代码生成能力黄金分级标准（L1-L5）：附赠可落地的团队接入评估清单（限前500名下载）

书匠策AI毕业论文全流程拆解：2025年写论文竟然可以这样“躺赢“？

《离别的最后》的内容入口：收尾场景如何被记住

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥