中国信息通信研究院简称 “中国信通院”推出了首个面向 AI Infra 运维的智能体评测基准 ——AISHPerf - 智算运维智能体评测基准。随着全球智能体加速落地算力需求呈指数级爆发以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。然而根据行业通用成本结构测其中由运维人力、故障损失与集群闲置构成的成本占比可高达 15%~20%全行业潜在的可优化空间超过 4350 亿美元。作为全球领先的 AI 基础设施服务商无问芯穹早在去年 10 月便率先启动研发并成功部署早期版本的运维智能体。实践表明相比传统人工运维智能体显著提升了整体运维效率工单平均处理时长缩短 50%关键故障处理效率提升约 6 倍运维人员得以从重复性的排查工作中解放人效提升 5 倍以上综合运维成本下降约 30%为大规模 GPU 训练与推理业务提供了更加稳定、高效的基础设施保障。但究竟什么样的运维智能体才是 “好用” 的智能体AI 集群运维是一个极具挑战性的场景涉及复杂的系统知识、工具调用以及长链路推理是对智能体能力的综合考验。过去对模型的评估看重语言能力而当 AI 进入基础设施领域后“能否解决实际问题” 已成为核心评判标准 —— 它最终会影响到每一度电、每一张 GPU 卡的产出效率。基于此中国信息通信研究院简称 “中国信通院”推出了首个面向 AI Infra 运维的智能体评测基准 ——AISHPerf - 智算运维智能体评测基准而无问芯穹作为重点技术支持单位参与了基准建设基于积累的近百亿条真实运维数据为智能体在智算运维场景的落地定义了问题并提供了一个可参考的基线。和传统 Benchmark 不同AISHPerf - 智算运维智能体评测基准并不关注模型 “说得多好”而是关注它 “能不能把事情做成”。我们希望通过这套基准测试开源与行业共同探索智能体在 AI 原生基础设施运维领域的能力边界推动 “AI for Infra” 与 “Infra for AI” 的双向赋能与协同进化。开源地址https://gitee.com/aishperf-caict/aishperf_openness配套故障模拟器https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos运维数据集https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl评测框架https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval01 不再纸上谈兵让运维智能体真正解决现实中多样化的生产问题2025 年 4 月 7 日无问芯穹某客户反馈训练任务出现无规律的剧烈性能波动我们的基础设施团队第一时间介入先后排查了网络链路、存储性能、节点硬件状态等所有常规维度均未发现异常。为了定位这个 “幽灵故障”团队前后投入 7 名资深研发运维人员连续奋战 15 天从用户训练框架的模型切分策略一路向下排查到网络协议、存储参数配置最终才在一个极其隐蔽的边缘场景中发现问题根源与存储系统的预期缓冲机制设计存在偏差。这场持续半个月的故障累计消耗 105 人天的研发运维人力256 台服务器全程处于闲置空转状态。若排查周期再进一步拉长、故障持续发酵将直接导致大规模资源空转、客户训练进度停滞甚至会造成灾难性的业务停摆与资产损失。而像这样隐蔽、复杂、跨技术栈的故障在基础设施服务商的日常中并不罕见。正是基于无数次这样苦涩的实战教训我们想将碎片化运维经验结构化、标准化为运维智能体明确核心问题边界并提供一套可执行的评测基准。本次基准全程由领域专家主导评测邀请了多位资深运维专家对数据进行精细标注与严格筛选确保每一条问题都具备真实生产价值与高质量评测意义。一真实生产场景的数据积淀AISHPerf - 智算运维智能体评测基准源自无问芯穹自成立以来积累的百亿条真实运维筛选后获得十万条场景真实、链路完整、信息完备的有效数据经过严格的三阶段数据工程处理最终抽象合成为 103 条高质量、高保真的评测用例。我们收集了 2024 年至 2026 年 1 月的全部用户工单及其关联的 IM 话题与文档附件以及所有线上集群的监控告警数据。通过过滤低质内容、去重、脱敏等严格的数据清洗流程剔除了客户需求、未查明原因、与平台逻辑强耦合等不适合作为通用评测的内容最终保留了无重复、高质量、信息安全的问题样本。每条用例都包含真实的问题现象、完整的排查链路和明确的故障根因确保评测结果能够真实反映智能体在生产环境中的实际表现。二多样化的跨层栈问题覆盖AI 原生基础设施平台的运维复杂度远超传统 IT 基础设施故障可能发生在从裸金属硬件到上层训推框架的任何一层。因此该基准打通了从底层硬件故障到用户侧软件 Bug 的全链路问题囊括多种表现形式、故障根因和修复方案不仅全面涵盖网络、GPU、宿主机、云原生平台等传统运维领域更首创性地纳入了 AI 原生领域的大模型训练、推理关键问题。同时问题覆盖天数、壁仞、沐曦、摩尔、昇腾 5 种国产芯片真正实现了多维度、多层次、多样化的问题场景全触达。我们按照技术栈层级将问题划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类涵盖 44 种问题现象和 22 个细分故障领域基本覆盖了真实运维场景中可能遇到的所有情况。此外所有问题共分为 3 种难度级别平均人工处理耗时为 1.5 小时充分保障了问题的复杂性与挑战性。三开放式的故障探索与处置传统的模型评测往往更像是笔试侧重考察知识记忆与标准答案复述。而 AISHPerf - 智算运维智能体评测基准是一场实操考核聚焦于考验智能体贴近生产环境的端到端问题解决能力。该基准不明确指出故障根因只提供真实的集群环境和有限的问题现象描述要求智能体自主探索、自主排查、自主修复。这对智能体提出了极高要求必须理解从物理设备到上层软件实现的多层复杂技术栈能够正确与真实环境交互高效处理长上下文信息并在复杂场景中完成多跳推理与决策。例如针对 “训练任务卡死” 这一常见问题评测系统会注入特定故障并启动一个开发机容器其中包含隐藏了源代码的训练脚本。智能体只会收到一段描述训练任务卡死的客户反馈和复现方式必须自行复现问题、排查可能的原因、验证假设并最终修复故障。这种开放式的评测方式能够真正检验智能体的自主决策能力和问题解决能力而不仅仅是知识记忆能力。02 配套利器GPU 集群故障模拟工程在大规模 GPU 集群的运维实践中如何在不破坏生产环境的前提下验证系统的故障恢复能力一直是行业普遍面临的棘手挑战。物理硬件故障注入成本极高、速度慢且不可重复而脱离真实集群用纯软件模拟又存在真实度不足的问题。为了解决这一难题AISHPerf - 智算运维智能体评测基准配套提供了 AIops-Chaos—— 一个专为 GPU 集群设计的混沌工程项目。其核心思路是通过软件层精准模拟各类硬件故障场景包括 GPU 掉卡、显存错误、NVLink 故障、网络分区等典型异常同时结合真实的业务负载构造高保真的测试环境。这种 “软件模拟 真实集群” 的模式既避免了物理损坏带来的高昂代价又确保了故障注入的可控性与可重复性。在工程实现上AIops-Chaos 针对 GPU 与 RDMA 等智算集群的故障场景采用了创新的技术方案GPU 故障模拟通过劫持 nvml 库实现了支持注入多种 GPU 故障的 nvidia-smi包括温度异常、掉卡、频率异常、风扇故障等RDMA 故障模拟端侧故障直接操作物理机对交换机故障采用 rdma hostmesh 作为可观测方案通过构造故障指标来模拟AIops-Chaos 展现出了高效、低成本、快速的优势。仅需一台 GPU 多轨 RoCE NIC 服务器即可支持构造多机任务故障现象并实现分钟级的故障编排与自动化恢复验证。03 科学量化一个多维度评估体系一评估指标AISHPerf - 智算运维智能体评测基准采用多维度综合评估体系评估的指标以结果为导向分为主指标与辅助指标。不仅关注智能体解决问题的正确率还全面考量时延、Token 消耗、工具调用效率等关键指标。1.1 主指标综合得分主指标为综合得分用于衡量智能体在整个运维任务集上的总体解决能力。每个任务评价智能体归纳的根因与事实是否相符相符得 1 分否则不得分可得到每一类任务的成功率记为。计算总分时对不同难度的任务赋予不同的权重记为且限制则综合得分为我们的配置为意味着要获得更高的分数必须做对中等和困难题目。1.2 辅助指标平均耗时、平均 Token 消耗与工具调用次数辅助指标由平均耗时与平均 Token 消耗构成用于评估智能体解决实际问题的时效性与成本。我们用平均耗时用于衡量智能体在完成任务时的时延表现单位为秒 / 任务。时延定义为从开始调用智能体到智能体返回最终结论的耗时。我们用平均 Token 消耗衡量智能体完成任务的资源成本单位为 Token / 任务。如果智能体不调用工具直接猜答案即使答案正确也会判为错用来确保智能体是实际与环境交互后推理出答案。二评估框架当前社区的评测工具普遍存在三大痛点缺乏对各类智能体应用的统一接口支持、仅关注最终答案而缺少对中间过程的细粒度评测、不包含环境定义与构造流程。为了解决这些问题我们开发了 AIops-Eval—— 一个端到端的智能体评测工具链。它包含五个核心子模块User 模块负责与智能体交互支持数据集驱动的固定输入和 LLM 驱动的真实用户模拟Agent 模块待评测对象原生支持本地 LLM 和基于 langgraph 构建的本地智能体并预留了远程智能体接口Env 模块为智能体提供交互环境负责每轮测例前后的环境构造与清理Evaluator 模块对智能体的完整轨迹进行评测支持自定义规则评测和 LLM-as-a-judge 评测Tracing 模块基于开源的 langfuse 实现完整采集智能体的执行轨迹04 实测验证我们对基于 ReAct loop 的简单智能体进行了全面测试。测试使用了多款不同大小的国内外主流模型同时为了公平测试模型自身的长程多跳推理能力智能体只使用 shell 工具且无法连接互联网进行搜索。下图展示了不同模型的总得分与时延以及模型与人类的对比从图中可以看出所有模型的总得分均在 50 分以下但达到了数量级的时效性提高成功率相比人类运维专家仍有差距下面的图展示了不同难度分类下各模型的表现不同难度的正确率不同难度 tool call 时间占比不同难度 token 消耗中等与困难难度上所有模型的正确率均小于 50%意味着即使是旗舰模型也难以稳定、出色的解决复杂运维问题。面对困难问题tool call 时间占比显著增加但正确率下降意味着模型无法精准有效的采集信息。不同难度问题的 Token 消耗没有数量级差别意味着在运维领域面对简单问题智能体无法像人类一样快速做出精确判断。下面的图展示了模型对不同技术栈的任务的表现不同技术栈任务的正确率不同技术栈 token 消耗模型更善于处理单纯的代码类 bug而在硬件故障上模型的正确率普遍低Token 消耗更高意味着模型对于硬件故障的置信度不够高倾向于反复思考和确认这代表智能体与运维专家的技能可能存在正交性。基于上述对大量测试轨迹的分析我们总结出智能体在解决运维问题时的几种典型失败模式1. 处理任务的稳定性不足模型可能生成不符合工具调用解析规则的 Token导致智能体执行异常终止也可能违反输出格式要求或执行禁止的危险操作导致任务无法得分。2. 推理链的质量差模型可能治标不治本的临时方案来达到表面上的修复效果可能输出看似合理但经不起推敲的推理过程可能只输出宽泛的排障思路不经过考证就直接给出结论。3. 决策与执行不够安全模型可能执行危险的工具调用执行过程卡死导致整个物理环境崩溃甚至需要运维人员人工介入才可恢复。05 实践思考与未来展望过去一年 AI 的发展态势有目共睹从大模型到智能体从训练到推理行业正在形成一个共同的认知技术发展的瓶颈早已不再局限于模型层底层算力基础设施同样是决定产业上限的关键要素。AI 系统本质上已经演变成一座 “Token 工厂”模型是生产逻辑数据是原材料而 GPU 集群则是生产设备工厂的最终产出是一个个 Token。但当我们将视角下沉到更底层就会发现一个更现实的问题“Token 工厂” 远没有想象中那么高效。AISHPerf - 智算运维智能体评测基准正是基于我们长期在 AI 基础设施领域建设与实践的经验针对 Token 工厂全栈提效的阶段性思考与探索成果。AI 正在重塑基础设施基础设施也在反过来决定 AI 的效率上限。在这两者不断交织的过程中我们希望此次的工作能够成为一个小的起点让 “系统自己解决问题” 这件事变得更可衡量也更可实现。此次开源只是一个开始未来仍有大量工作可深入挖掘。我们将持续合成更丰富、高质量的数据覆盖更多技术栈与领域更全面地捕捉智能体的运维能力演进趋势并同步完善 AIops-chaos 混沌工程实现更丰富、真实、鲁棒的故障注入为智能体搭建更完善可信的故障模拟环境提升数据集丰富度与评测结果可靠性。同时我们将在评测框架上做更开放的支持。目前我们测试的 Baseline Agent 基于 ReAct 范式构建。后续将逐步扩展评测框架的适配能力让不同类型的智能体都可以无缝接入而不是被限制在某一种范式下进行对比。立足当下国产芯片大力发展、国产 GPU 集群建设日益蓬勃的产业背景面向国产 GPU 集群的运维工作愈发关键新问题与挑战也将随之增加。我们将不断在评测集中拓展面向国产芯片集群运维的特定场景及问题填补国产智算运维评测领域的空白从而有效助力国产芯片集群运维能力的智能化升级。我们将持续深化与中国信息通信研究院、清华大学等产学研机构的技术协同同时也期待着每一位社区开发者的加入共建共同推动运维智能体技术稳步发展并成为整个行业共享的能力。如果说目前完成的工作是在回答 “什么是一个好用的运维智能体”那么接下来我们更想与行业一起探索的是 —— 在真实世界中这件事情还能走多远。我们期待 AISHPerf - 智算运维智能体评测基准可以不止于一款 “评测工具”而是逐步演进为 AI 集群运维智能体能力的公共基线。不同团队可以在同一套标准下验证能力、对齐认知甚至推动一些最佳实践的沉淀。
百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源
发布时间:2026/7/1 6:51:20
中国信息通信研究院简称 “中国信通院”推出了首个面向 AI Infra 运维的智能体评测基准 ——AISHPerf - 智算运维智能体评测基准。随着全球智能体加速落地算力需求呈指数级爆发以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。然而根据行业通用成本结构测其中由运维人力、故障损失与集群闲置构成的成本占比可高达 15%~20%全行业潜在的可优化空间超过 4350 亿美元。作为全球领先的 AI 基础设施服务商无问芯穹早在去年 10 月便率先启动研发并成功部署早期版本的运维智能体。实践表明相比传统人工运维智能体显著提升了整体运维效率工单平均处理时长缩短 50%关键故障处理效率提升约 6 倍运维人员得以从重复性的排查工作中解放人效提升 5 倍以上综合运维成本下降约 30%为大规模 GPU 训练与推理业务提供了更加稳定、高效的基础设施保障。但究竟什么样的运维智能体才是 “好用” 的智能体AI 集群运维是一个极具挑战性的场景涉及复杂的系统知识、工具调用以及长链路推理是对智能体能力的综合考验。过去对模型的评估看重语言能力而当 AI 进入基础设施领域后“能否解决实际问题” 已成为核心评判标准 —— 它最终会影响到每一度电、每一张 GPU 卡的产出效率。基于此中国信息通信研究院简称 “中国信通院”推出了首个面向 AI Infra 运维的智能体评测基准 ——AISHPerf - 智算运维智能体评测基准而无问芯穹作为重点技术支持单位参与了基准建设基于积累的近百亿条真实运维数据为智能体在智算运维场景的落地定义了问题并提供了一个可参考的基线。和传统 Benchmark 不同AISHPerf - 智算运维智能体评测基准并不关注模型 “说得多好”而是关注它 “能不能把事情做成”。我们希望通过这套基准测试开源与行业共同探索智能体在 AI 原生基础设施运维领域的能力边界推动 “AI for Infra” 与 “Infra for AI” 的双向赋能与协同进化。开源地址https://gitee.com/aishperf-caict/aishperf_openness配套故障模拟器https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos运维数据集https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl评测框架https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval01 不再纸上谈兵让运维智能体真正解决现实中多样化的生产问题2025 年 4 月 7 日无问芯穹某客户反馈训练任务出现无规律的剧烈性能波动我们的基础设施团队第一时间介入先后排查了网络链路、存储性能、节点硬件状态等所有常规维度均未发现异常。为了定位这个 “幽灵故障”团队前后投入 7 名资深研发运维人员连续奋战 15 天从用户训练框架的模型切分策略一路向下排查到网络协议、存储参数配置最终才在一个极其隐蔽的边缘场景中发现问题根源与存储系统的预期缓冲机制设计存在偏差。这场持续半个月的故障累计消耗 105 人天的研发运维人力256 台服务器全程处于闲置空转状态。若排查周期再进一步拉长、故障持续发酵将直接导致大规模资源空转、客户训练进度停滞甚至会造成灾难性的业务停摆与资产损失。而像这样隐蔽、复杂、跨技术栈的故障在基础设施服务商的日常中并不罕见。正是基于无数次这样苦涩的实战教训我们想将碎片化运维经验结构化、标准化为运维智能体明确核心问题边界并提供一套可执行的评测基准。本次基准全程由领域专家主导评测邀请了多位资深运维专家对数据进行精细标注与严格筛选确保每一条问题都具备真实生产价值与高质量评测意义。一真实生产场景的数据积淀AISHPerf - 智算运维智能体评测基准源自无问芯穹自成立以来积累的百亿条真实运维筛选后获得十万条场景真实、链路完整、信息完备的有效数据经过严格的三阶段数据工程处理最终抽象合成为 103 条高质量、高保真的评测用例。我们收集了 2024 年至 2026 年 1 月的全部用户工单及其关联的 IM 话题与文档附件以及所有线上集群的监控告警数据。通过过滤低质内容、去重、脱敏等严格的数据清洗流程剔除了客户需求、未查明原因、与平台逻辑强耦合等不适合作为通用评测的内容最终保留了无重复、高质量、信息安全的问题样本。每条用例都包含真实的问题现象、完整的排查链路和明确的故障根因确保评测结果能够真实反映智能体在生产环境中的实际表现。二多样化的跨层栈问题覆盖AI 原生基础设施平台的运维复杂度远超传统 IT 基础设施故障可能发生在从裸金属硬件到上层训推框架的任何一层。因此该基准打通了从底层硬件故障到用户侧软件 Bug 的全链路问题囊括多种表现形式、故障根因和修复方案不仅全面涵盖网络、GPU、宿主机、云原生平台等传统运维领域更首创性地纳入了 AI 原生领域的大模型训练、推理关键问题。同时问题覆盖天数、壁仞、沐曦、摩尔、昇腾 5 种国产芯片真正实现了多维度、多层次、多样化的问题场景全触达。我们按照技术栈层级将问题划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类涵盖 44 种问题现象和 22 个细分故障领域基本覆盖了真实运维场景中可能遇到的所有情况。此外所有问题共分为 3 种难度级别平均人工处理耗时为 1.5 小时充分保障了问题的复杂性与挑战性。三开放式的故障探索与处置传统的模型评测往往更像是笔试侧重考察知识记忆与标准答案复述。而 AISHPerf - 智算运维智能体评测基准是一场实操考核聚焦于考验智能体贴近生产环境的端到端问题解决能力。该基准不明确指出故障根因只提供真实的集群环境和有限的问题现象描述要求智能体自主探索、自主排查、自主修复。这对智能体提出了极高要求必须理解从物理设备到上层软件实现的多层复杂技术栈能够正确与真实环境交互高效处理长上下文信息并在复杂场景中完成多跳推理与决策。例如针对 “训练任务卡死” 这一常见问题评测系统会注入特定故障并启动一个开发机容器其中包含隐藏了源代码的训练脚本。智能体只会收到一段描述训练任务卡死的客户反馈和复现方式必须自行复现问题、排查可能的原因、验证假设并最终修复故障。这种开放式的评测方式能够真正检验智能体的自主决策能力和问题解决能力而不仅仅是知识记忆能力。02 配套利器GPU 集群故障模拟工程在大规模 GPU 集群的运维实践中如何在不破坏生产环境的前提下验证系统的故障恢复能力一直是行业普遍面临的棘手挑战。物理硬件故障注入成本极高、速度慢且不可重复而脱离真实集群用纯软件模拟又存在真实度不足的问题。为了解决这一难题AISHPerf - 智算运维智能体评测基准配套提供了 AIops-Chaos—— 一个专为 GPU 集群设计的混沌工程项目。其核心思路是通过软件层精准模拟各类硬件故障场景包括 GPU 掉卡、显存错误、NVLink 故障、网络分区等典型异常同时结合真实的业务负载构造高保真的测试环境。这种 “软件模拟 真实集群” 的模式既避免了物理损坏带来的高昂代价又确保了故障注入的可控性与可重复性。在工程实现上AIops-Chaos 针对 GPU 与 RDMA 等智算集群的故障场景采用了创新的技术方案GPU 故障模拟通过劫持 nvml 库实现了支持注入多种 GPU 故障的 nvidia-smi包括温度异常、掉卡、频率异常、风扇故障等RDMA 故障模拟端侧故障直接操作物理机对交换机故障采用 rdma hostmesh 作为可观测方案通过构造故障指标来模拟AIops-Chaos 展现出了高效、低成本、快速的优势。仅需一台 GPU 多轨 RoCE NIC 服务器即可支持构造多机任务故障现象并实现分钟级的故障编排与自动化恢复验证。03 科学量化一个多维度评估体系一评估指标AISHPerf - 智算运维智能体评测基准采用多维度综合评估体系评估的指标以结果为导向分为主指标与辅助指标。不仅关注智能体解决问题的正确率还全面考量时延、Token 消耗、工具调用效率等关键指标。1.1 主指标综合得分主指标为综合得分用于衡量智能体在整个运维任务集上的总体解决能力。每个任务评价智能体归纳的根因与事实是否相符相符得 1 分否则不得分可得到每一类任务的成功率记为。计算总分时对不同难度的任务赋予不同的权重记为且限制则综合得分为我们的配置为意味着要获得更高的分数必须做对中等和困难题目。1.2 辅助指标平均耗时、平均 Token 消耗与工具调用次数辅助指标由平均耗时与平均 Token 消耗构成用于评估智能体解决实际问题的时效性与成本。我们用平均耗时用于衡量智能体在完成任务时的时延表现单位为秒 / 任务。时延定义为从开始调用智能体到智能体返回最终结论的耗时。我们用平均 Token 消耗衡量智能体完成任务的资源成本单位为 Token / 任务。如果智能体不调用工具直接猜答案即使答案正确也会判为错用来确保智能体是实际与环境交互后推理出答案。二评估框架当前社区的评测工具普遍存在三大痛点缺乏对各类智能体应用的统一接口支持、仅关注最终答案而缺少对中间过程的细粒度评测、不包含环境定义与构造流程。为了解决这些问题我们开发了 AIops-Eval—— 一个端到端的智能体评测工具链。它包含五个核心子模块User 模块负责与智能体交互支持数据集驱动的固定输入和 LLM 驱动的真实用户模拟Agent 模块待评测对象原生支持本地 LLM 和基于 langgraph 构建的本地智能体并预留了远程智能体接口Env 模块为智能体提供交互环境负责每轮测例前后的环境构造与清理Evaluator 模块对智能体的完整轨迹进行评测支持自定义规则评测和 LLM-as-a-judge 评测Tracing 模块基于开源的 langfuse 实现完整采集智能体的执行轨迹04 实测验证我们对基于 ReAct loop 的简单智能体进行了全面测试。测试使用了多款不同大小的国内外主流模型同时为了公平测试模型自身的长程多跳推理能力智能体只使用 shell 工具且无法连接互联网进行搜索。下图展示了不同模型的总得分与时延以及模型与人类的对比从图中可以看出所有模型的总得分均在 50 分以下但达到了数量级的时效性提高成功率相比人类运维专家仍有差距下面的图展示了不同难度分类下各模型的表现不同难度的正确率不同难度 tool call 时间占比不同难度 token 消耗中等与困难难度上所有模型的正确率均小于 50%意味着即使是旗舰模型也难以稳定、出色的解决复杂运维问题。面对困难问题tool call 时间占比显著增加但正确率下降意味着模型无法精准有效的采集信息。不同难度问题的 Token 消耗没有数量级差别意味着在运维领域面对简单问题智能体无法像人类一样快速做出精确判断。下面的图展示了模型对不同技术栈的任务的表现不同技术栈任务的正确率不同技术栈 token 消耗模型更善于处理单纯的代码类 bug而在硬件故障上模型的正确率普遍低Token 消耗更高意味着模型对于硬件故障的置信度不够高倾向于反复思考和确认这代表智能体与运维专家的技能可能存在正交性。基于上述对大量测试轨迹的分析我们总结出智能体在解决运维问题时的几种典型失败模式1. 处理任务的稳定性不足模型可能生成不符合工具调用解析规则的 Token导致智能体执行异常终止也可能违反输出格式要求或执行禁止的危险操作导致任务无法得分。2. 推理链的质量差模型可能治标不治本的临时方案来达到表面上的修复效果可能输出看似合理但经不起推敲的推理过程可能只输出宽泛的排障思路不经过考证就直接给出结论。3. 决策与执行不够安全模型可能执行危险的工具调用执行过程卡死导致整个物理环境崩溃甚至需要运维人员人工介入才可恢复。05 实践思考与未来展望过去一年 AI 的发展态势有目共睹从大模型到智能体从训练到推理行业正在形成一个共同的认知技术发展的瓶颈早已不再局限于模型层底层算力基础设施同样是决定产业上限的关键要素。AI 系统本质上已经演变成一座 “Token 工厂”模型是生产逻辑数据是原材料而 GPU 集群则是生产设备工厂的最终产出是一个个 Token。但当我们将视角下沉到更底层就会发现一个更现实的问题“Token 工厂” 远没有想象中那么高效。AISHPerf - 智算运维智能体评测基准正是基于我们长期在 AI 基础设施领域建设与实践的经验针对 Token 工厂全栈提效的阶段性思考与探索成果。AI 正在重塑基础设施基础设施也在反过来决定 AI 的效率上限。在这两者不断交织的过程中我们希望此次的工作能够成为一个小的起点让 “系统自己解决问题” 这件事变得更可衡量也更可实现。此次开源只是一个开始未来仍有大量工作可深入挖掘。我们将持续合成更丰富、高质量的数据覆盖更多技术栈与领域更全面地捕捉智能体的运维能力演进趋势并同步完善 AIops-chaos 混沌工程实现更丰富、真实、鲁棒的故障注入为智能体搭建更完善可信的故障模拟环境提升数据集丰富度与评测结果可靠性。同时我们将在评测框架上做更开放的支持。目前我们测试的 Baseline Agent 基于 ReAct 范式构建。后续将逐步扩展评测框架的适配能力让不同类型的智能体都可以无缝接入而不是被限制在某一种范式下进行对比。立足当下国产芯片大力发展、国产 GPU 集群建设日益蓬勃的产业背景面向国产 GPU 集群的运维工作愈发关键新问题与挑战也将随之增加。我们将不断在评测集中拓展面向国产芯片集群运维的特定场景及问题填补国产智算运维评测领域的空白从而有效助力国产芯片集群运维能力的智能化升级。我们将持续深化与中国信息通信研究院、清华大学等产学研机构的技术协同同时也期待着每一位社区开发者的加入共建共同推动运维智能体技术稳步发展并成为整个行业共享的能力。如果说目前完成的工作是在回答 “什么是一个好用的运维智能体”那么接下来我们更想与行业一起探索的是 —— 在真实世界中这件事情还能走多远。我们期待 AISHPerf - 智算运维智能体评测基准可以不止于一款 “评测工具”而是逐步演进为 AI 集群运维智能体能力的公共基线。不同团队可以在同一套标准下验证能力、对齐认知甚至推动一些最佳实践的沉淀。