第81篇:Vibe Coding时代:LangGraph + Eval评估体系实战,解决 Agent 优化全靠感觉的问题 第81篇:Vibe Coding时代:LangGraph + Eval评估体系实战,解决 Agent 优化全靠感觉的问题一、问题场景:Prompt 改了,工作流升级了,但到底有没有变好?做 AI Coding Agent 最容易出现一种情况:今天改 Prompt 明天换模型 后天加一个 Review 节点 大后天又把 RAG 上下文加长每次改完都觉得“好像更智能了”。但上线后才发现:1. 成本变高了 2. 成功率下降了 3. 代码变复杂了 4. 测试通过率变低了 5. 安全审查误杀变多了 6. 用户等待时间变长了问题根源是:Agent 没有评估体系,优化全靠主观感觉。真实工程里,任何核心流程升级都应该先跑评估集。本文解决的问题是:如何给 LangGraph Coding Agent 建立 Eval 评估体系,用固定任务集评估不同 Prompt、模型和 workflow 版本的效果。二、Eval 要评估什么?一个 Codin