告别“感觉能用”:基于 Ragas 构建 RAG 自动化回归测试流水线的方法论 很多团队把 RAG 系统做到能演示、能回答、能接知识库之后,心里都会出现一种熟悉又危险的判断:看起来差不多能用了。但只要系统真的进入业务场景,这种“差不多”很快就会露出问题。今天回答还算靠谱,明天换一批文档就开始飘;演示集表现很好,真实用户一多就出现答非所问;调完 Prompt 以为效果更稳,结果另一些问题反而退化了。这时候最麻烦的,并不是某一次回答错了,而是团队根本说不清:系统到底是在变好,还是只是在碰运气。如果这个判断长期靠经验、靠感觉、靠“看了几个例子觉得还行”,那 RAG 项目就很难真正进入工程化阶段。所以这篇文章想讲清楚一个越来越关键的问题:怎么把“感觉能用”的 RAG,升级成有质量基线、有自动评测、有回归机制的工程系统。而在这件事上,Ragas 是一个非常值得认真理解的抓手。一、为什么很多 RAG 项目上线后总停留在“感觉能用”RAG 最容易给人带来一种错觉:能检索到一些相关内容能生成一段像样答案演示样例跑通了用户偶尔觉得挺聪明于是团队就很容易默认系统已