第6章 Agent 评估、测试与生产最佳实践

发布时间：2026/6/13 23:49:57

“”第6章Agent 评估、测试与生产最佳实践本章目标掌握 Agent 评估的核心维度和指标了解业界常用的 Agent Benchmark学会编写 Agent 的单元测试掌握生产环境 Agent 的最佳实践面试高频点Agent 的质量怎么衡量LLM 评估和 Agent 评估有什么区别如何测试一个 Agent生产环境的 Agent 需要注意什么━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━6.1 Agent 评估 vs LLM 评估━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━评估 LLM模型级别只需评估输出文本质量指标困惑度(Perplexity)、BLEU、ROUGE、人工评分评估 Agent系统级别需要评估整个系统的端到端表现涉及多个维度任务完成率、工具选择准确率、执行效率等关键区别Agent 的评估更接近「软件系统测试」而非「模型评估」。Agent 多了一个「行动」维度需要评估行动计划是否正确工具调用参数是否准确错误处理是否健壮评估维度全景┌──────────────┬──────────────────────────────────────┐│ 维度 │ 评估内容 │├──────────────┼──────────────────────────────────────┤│ 任务完成率 │ 是否成功完成用户指定的任务 ││ 工具调用准确率 │ 是否选择了正确的工具参数是否正确 ││ 执行效率 │ 完成任务需要多少步消耗多少 token ││ 鲁棒性 │ 输入异常/工具失败时的处理能力 ││ 安全性 │ 是否执行了危险操作 ││ 用户体验 │ 回答是否流畅、有帮助、易于理解 │└──────────────┴──────────────────────────────────────┘主流 Agent BenchmarkAgentBench: 8 个真实环境的 Agent 评测SWE-bench: 软件工程任务评测WebArena: Web 操作评测GAIA: 通用 AI 助手评测τ-Bench: 工具使用评测“”import jsonimport timefrom typing import Callable“”━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━6.2 Agent 评测框架可运行━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━下面实现一个 AgentEval 评测框架围绕 5 个核心维度任务完成率 —— Agent 是否成功完成了用户的请求工具选择准确率 —— Function Calling 选对工具了吗参数提取准确率 —— 传给工具的 JSON 参数是否正确Token 效率 —— 完成任务用了多少 Token延迟 —— 从用户提问到最终回答花了多久这套框架会跑测试用例、自动打分、生成报告。你可以直接用于自己的 Agent 项目。“”class AgentEvaluator:“”Agent 评测器 —— 系统化评估 Agent 的表现。设计思路 1. 准备一组测试用例输入期望输出评估标准 2. 对每个用例运行 Agent 3. 用 LLM 作为评判员LLM-as-Judge来打分 4. 汇总统计并生成报告 LLM-as-Judge 是目前业界评估 Agent 的主流方法因为 Agent 的输出是自然语言传统指标BLEU/ROUGE 无法准确评估语义层面的质量。 def __init__(self, llm: Callable None): 初始化评测器。 Args: llm: 用于评分的 LLM 函数可选的 LLM-as-Judge。 self.llm llm self.results [] def evaluate(self, agent_func: Callable, test_cases: list[dict]) - list[dict]: 运行评测。 Args: agent_func: Agent 执行函数签名为 (input: str) - str。 test_cases: 测试用例列表每个用例包含: - input: 输入文本 - expected_keywords: 回答应包含的关键词可选 - expected_tool: 预期调用的工具名可选 - weight: 权重默认 1.0 Returns: 评测结果列表。 self.results [] for i, case in enumerate(test_cases): print(f\n 评测用例 {i1}/{len(test_cases)}: {case[input][:50]}...) start_time time.time() try: output agent_func(case[input]) error None except Exception as e: output error str(e) elapsed time.time() - start_time # 基本检查 score 1.0 details [] # 检查关键词 if expected_keywords in case and case[expected_keywords]: keyword_score self._check_keywords( output, case[expected_keywords] ) score * keyword_score details.append(f关键词匹配: {keyword_score:.2f}) # 检查是否非空 if not output or len(output) 10: score * 0.5 details.append(输出过短) # 检查是否有错误 if error: score * 0 details.append(f执行错误: {error}) weight case.get(weight, 1.0) result { case_id: i 1, input: case[input], output: output[:200], score: score, weight: weight, error: error, elapsed_sec: round(elapsed, 2), details: details, } self.results.append(result) print(f 评分: {score:.2f} | 耗时: {elapsed:.2f}s) return self.results def _check_keywords(self, output: str, keywords: list[str]) - float: 检查输出是否包含期望关键词。 Args: output: Agent 输出。 keywords: 期望出现的关键词列表。 Returns: 匹配比例0~1。 if not keywords: return 1.0 matched sum(1 for kw in keywords if kw.lower() in output.lower()) return matched / len(keywords) def summary(self) - str: 生成评测汇总报告。 Returns: 格式化的评测报告。 if not self.results: return 无评测结果。 total_weight sum(r[weight] for r in self.results) weighted_score sum( r[score] * r[weight] for r in self.results ) / total_weight if total_weight 0 else 0 passed sum(1 for r in self.results if r[score] 0.7) failed len(self.results) - passed lines [ * 55, Agent 评测报告, * 55, f 总用例数: {len(self.results)}, f 通过 (≥0.7): {passed}, f 失败 (0.7): {failed}, f 加权平均分: {weighted_score:.2f}, f 平均耗时: {sum(r[elapsed_sec] for r in self.results) / len(self.results):.2f}s, - * 55, ] for r in self.results: status ✅ if r[score] 0.7 else ❌ lines.append( f {status} Case {r[case_id]}: fscore{r[score]:.2f} | time{r[elapsed_sec]}s ) if r[details]: for d in r[details]: lines.append(f └─ {d}) lines.append( * 55) return \n.join(lines)def demo_evaluation():“”“演示 Agent 评测体系。”“”print(“\n” “” * 60)print( Agent 评测体系演示)print(“” * 60)# 模拟一个「简单 Agent」 def mock_agent(user_input: str) - str: 模拟 Agent —— 用于演示评测流程。 if 天气 in user_input: return 当前天气晴好气温25°C湿度适中适合户外活动。 if 计算 in user_input: try: expr user_input.split(计算)[-1].strip() return f计算结果为: {eval(expr)} except Exception: return 计算失败请检查表达式。 if 搜索 in user_input: return 搜索结果: 找到了相关信息详情请查看链接。 return 我不太理解您的问题请提供更多信息。 # 准备测试用例 test_cases [ { input: 北京今天天气怎么样, expected_keywords: [天气, 温度, °C], weight: 1.0, }, { input: 帮我算一下 123 456 等于多少, expected_keywords: [579, 计算结果], weight: 1.0, }, { input: 搜索 Python 教程, expected_keywords: [搜索, 结果], weight: 0.5, }, { input: 写一首关于春天的诗, expected_keywords: [春], weight: 1.5, }, ] evaluator AgentEvaluator() evaluator.evaluate(mock_agent, test_cases) print(\n evaluator.summary())“”━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━6.3 Agent 测试策略━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━测试金字塔从底层到顶层Layer 1: 工具单元测试- 测试每个 Tool 函数的输入/输出- 确保工具在 LLM 调用前已经正确Layer 2: Agent 行为测试- 给定输入验证是否调用了正确的工具- 验证 tool_calls 的参数是否正确- Mock LLM 的返回测试 Agent 循环逻辑Layer 3: 端到端测试- 完整运行 Agent验证最终输出- 使用 LLM-as-Judge 评分- 覆盖典型场景和边界情况Layer 4: 回归测试- 收集线上的 bad case- 每次改动后验证这些 case 是否退化- 持续积累评测集面试常见问题“你怎么测试 Agent 代码”→ 分层测试工具用单测Agent 循环用 mock端到端用 LLM-as-Judge线上用回归评测集“”“”━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━6.4 生产环境最佳实践━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━错误处理每个工具调用都要 try-catch给 LLM 返回「能帮助它修正」的错误信息设置全局超时和最大重试次数可观测性记录每次 LLM 调用的输入/输出/token/耗时记录每个 tool_call 的参数和结果使用 LangSmith / LangFuse 等工具做 Tracing成本控制用更小更便宜的模型做简单任务模型分层缓存相同/相似的 LLM 调用设置 max_tokens 限制每次调用的成本上限用语义缓存减少重复查询安全防护Prompt Injection 防护输入过滤工具权限最小化sudo 问题人工确认Human-in-the-Loop对关键操作性能优化并行执行独立的工具调用流式输出streaming提升用户体验预加载和预计算面试速记“生产环境 Agent 和 Demo 的区别”→ Demo 追求「能跑」生产追求「稳定、安全、可观测、低成本」→ 需要监控、告警、降级、熔断等基础设施→ 错误处理从打印日志升级到自动恢复通知“”“”━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━6.5 本章总结━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━核心要点回顾Agent 评估多维度任务完成率、工具准确率、效率、鲁棒性主流方法LLM-as-Judge业界 BenchmarkAgentBench、SWE-bench、GAIAAgent 测试分层测试工具单测 → 行为测试 → 端到端测试 → 回归测试LLM-as-Judge 是端到端测试的核心方法生产最佳实践错误处理try-catch 可读错误信息可观测性Tracing Logging成本控制模型分层缓存限制安全Prompt Injection 防护权限最小化“”ifname “main”:print(“╔══════════════════════════════════════════════════════╗”)print(“║ 第6章Agent 评估与最佳实践 ║”)print(“║ 评测框架 · 测试策略 · 生产部署 ║”)print(“╚══════════════════════════════════════════════════════╝”)print(\n▶ 6.2 Agent 评测框架演示) demo_evaluation() print(\n▶ 6.3 测试策略速查) print(- * 50) print(Layer 1: 工具单元测试 → 测 Tool 函数) print(Layer 2: Agent 行为测试 → Mock LLM, 测循环逻辑) print(Layer 3: 端到端测试 → LLM-as-Judge 评分) print(Layer 4: 回归测试 → Bad case 积累持续回归) print(\n▶ 6.4 生产 Checklist) print(- * 50) checks [ ✅ 错误处理: 每个工具调用有 try-catch, ✅ 可观测性: Tracing Logging 全覆盖, ✅ 成本控制: 模型分层缓存限制, ✅ 安全防护: Input 过滤权限最小化, ✅ 性能优化: 并行 Streaming 预计算, ] for c in checks: print(f {c}) print(\n✅ 第6章完成接下来进入第7章求职面试准备。)

从化学实验室到AI助手：ChemCrow如何用12种专业工具重塑化学研究

从化学实验室到AI助手：ChemCrow如何用12种专业工具重塑化学研究【免费下载链接】chemcrow-public Chemcrow 项目地址: https://gitcode.com/gh_mirrors/ch/chemcrow-public 想象一下，你是一位化学研究员，面对复杂的分子分析任务&…

2026/6/13 23:49:57 阅读更多

PHP条形码生成完全指南：30+种标准格式与4种输出格式的终极解决方案

PHP条形码生成完全指南：30种标准格式与4种输出格式的终极解决方案【免费下载链接】php-barcode-generator Barcode generator in PHP that is easy to use, non-bloated and framework independent. 项目地址: https://gitcode.com/gh_mirrors/ph/php-barcode-ge…

2026/6/13 23:47:12 阅读更多

完全免费！这款开源跨平台音乐播放器让你畅享全网音乐资源

完全免费！这款开源跨平台音乐播放器让你畅享全网音乐资源【免费下载链接】lx-music-desktop 一个基于 Electron 的音乐软件项目地址: https://gitcode.com/GitHub_Trending/lx/lx-music-desktop 还在为音乐平台会员费烦恼吗？想在一个软件里听遍…

2026/6/13 23:46:11 阅读更多

考前自测！【药学】核心考点模拟测验（卷号：06121219_08）

【考前自测！【药学】核心考点模拟测验（卷号：06121219_08） 】■ 试卷元数据更新日期：2026-06-13 涉及科目：药学、中药学、基础课题量统计：共 90 道核心考题■ 内容摘要本卷旨在帮助2026年执业…

2026/6/14 1:09:57 阅读更多

MH迈汇：把工具可用性做扎实，偏好清晰说明的读者更容易感受到的视角

MH迈汇：把工具可用性做扎实，偏好清晰说明的读者更容易感受到的视角在外汇相关服务里，MH迈汇是否值得长期关注，往往取决于几个清晰的体验点：说明是否好理解、提示是否到位、流程是否连贯、支持是否稳定。下面从这些维度…

2026/6/14 1:09:57 阅读更多

电子元器件原装现货怎么判断？采购前建议核对这10项信息

摘要：电子元器件采购中，“有库存”只是第一步。型号后缀、封装、批次、温度等级等信息缺失常导致器件与项目不匹配。本文提供采购前应核对的10项信息清单，并附可直接保存使用的采购确认表。核心结论电子元器件原装现货不能只凭“有库存”“…

2026/6/14 1:09:57 阅读更多

SketchUp STL插件深度解析：专业级3D打印工作流解决方案

SketchUp STL插件深度解析：专业级3D打印工作流解决方案【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp …

2026/6/14 1:08:56 阅读更多

从熔石英激光加热案例出发：在COMSOL中理解‘热边界条件’如何主导升温与冷却稳态

从熔石英激光加热案例看COMSOL热边界条件的物理本质与实战应用熔石英材料在激光加工中的温度响应一直是工业界关注的焦点问题。去年参与某精密光学元件项目时，我们团队曾遇到一个棘手现象：相同功率的激光在不同环境条件下加工熔石英，工件中心…

2026/6/14 1:07:55 阅读更多

从原理图到GDS：一个反相器在Virtuoso中的完整“物理化”之旅（含Calibre DRC/LVS/PEX实战）

从原理图到GDS：一个反相器在Virtuoso中的完整“物理化”之旅（含Calibre DRC/LVS/PEX实战）在集成电路设计的浩瀚宇宙中，反相器就像一颗不起眼却至关重要的基础粒子。作为数字电路中最简单的逻辑门，它承载着信号反转的核…

2026/6/14 1:07:55 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/13 10:27:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/13 10:01:44 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/13 10:00:44 阅读更多

相关文章

从化学实验室到AI助手：ChemCrow如何用12种专业工具重塑化学研究

PHP条形码生成完全指南：30+种标准格式与4种输出格式的终极解决方案

完全免费！这款开源跨平台音乐播放器让你畅享全网音乐资源

考前自测！【药学】核心考点模拟测验（卷号：06121219_08）

MH迈汇：把工具可用性做扎实，偏好清晰说明的读者更容易感受到的视角

电子元器件原装现货怎么判断？采购前建议核对这10项信息

SketchUp STL插件深度解析：专业级3D打印工作流解决方案

从熔石英激光加热案例出发：在COMSOL中理解‘热边界条件’如何主导升温与冷却稳态

从原理图到GDS：一个反相器在Virtuoso中的完整“物理化”之旅（含Calibre DRC/LVS/PEX实战）

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因