基于MindCluster的昇腾集群秒级故障检测机制

发布时间：2026/6/5 23:06:24

技术特性与价值随着大模型预训练技术的发展模型参数量以及数据量极速膨胀因此在训练模型时将使用千卡甚至万卡规模的设备进行训练。与通用计算不同AI分布式训练涉及到更多数量的硬件器件同时其中任何一个器件的失效都有可能导致训练的中断。每次训练中断时故障器件的排除成为了运维人员在AI计算的首要难题快速且精准地找到故障设备能够降低大量的训练成本。MindCluster针对昇腾设备集群提供了一套故障检测机制能够秒级完成昇腾相关设备的故障检测与隔离用户可以根据MindCluster上报的集群设备故障信息排除集群中出现异常的设备。图1 MindCluster故障检测架关键能力NPU芯片故障检测芯片故障指的是NPU出现的基础软件类故障和芯片硬件类故障。MindCluster在集群的NPU节点部署Ascend Device Plugin组件Ascend Device Plugin组件除了提供基础的设备发现和挂载功能外还负责NPU相关故障的检测。NPU内部具有故障检测机制NPU故障后将故障事件通知到Ascend Device PluginAscend Device Plugin对故障信息进行处理后对外上报该故障信息这一过程将在1秒内完成。对外上报故障信息的接口当前主要以K8S的Configmap承载将刷新故障信息到Configmap中用户可以在深度学习平台的管理面或者业务容器挂载获取该节点的NPU故障信息。图2 芯片故障上报流程服务器故障检测服务器故障指的是NPU所在AI服务器上除了NPU外的其他软硬件的故障信息。MindCluster在集群的NPU节点部署NodeD组件NodeD组件提供服务器相关软硬件的故障检测此外MindCluster还复用了kubelet的节点健康检测能力会基于NodeD和Kubelet获取服务器故障信息。服务器心跳状态Kubelet将定期与Api-Server发送心跳当Api-Server发现某个节点的心跳丢失后将把该节点的状态置为Not ReadyMindCluster将节点Not Ready的服务器检测为服务器不可用。服务器硬件故障针对服务器硬件故障NodeD通过IPMI驱动向iBMC发送故障查询请求iBMC将当前硬件告警信息响应给NodeD。NodeD收集硬件告警信息后将节点硬件状态对外上报信息。服务器DPC共享存储故障针对共享存储服务DPCNodeD将基于DPC服务的过程记录信息检测DPC存储服务的故障检测故障后将该信息对外上报图3 服务器故障检测上报流程参数面网络检测NPU的参数面网络故障包括ROCE网络相关故障和灵衢总线设备故障。参数面网络出现故障时通常将导致训练任务中断或者训练任务性能劣化。ROCE网络故障在昇腾A2、A3系列产品上ROCE网口是NPU上直出因此NPU具有其直出的ROCE网络的故障检测机制ROCE故障后将故障事件通知到Ascend Device Plugin。灵衢总线设备故障灵衢总线设备当前仅在昇腾A3系列产品上使用灵衢总线设备驱动将检测对应的灵衢总线设备的故障信息灵衢网络故障后将故障事件通知到Ascend Device Plugin。Ascend Device Plugin对故障信息进行处理后对外上报该故障信息这一过程将在1秒内完成。对外上报故障信息的接口当前主要以K8S的Configmap承载将刷新故障信息到Configmap中用户可以在深度学习平台的管理面或者业务容器挂载获取该节点的NPU故障信息。Ascend Device Plugin对故障信息进行处理后对外上报该故障信息。图4 参数面故障检测流程快速部署安装Ascend Device Plugin组件操作步骤将Ascend Device Plugin软件包解压目录下的执行容器构建命令tag为版本号。docker build --no-cache -t ascend-k8sdeviceplugin:{tag} ./执行以下命令查看镜像和版本号是否正确。docker images | grep k8sdeviceplugin将Ascend Device Plugin软件包解压目录下的YAML文件拷贝到K8s管理节点上任意目录。如不修改组件启动参数可跳过本步骤。否则根据实际情况修改Ascend Device Plugin的启动参数。启动参数请参见可执行./device-plugin -h查看参数说明。根据需要使用的故障处理模式修改Ascend Device Plugin组件的启动YAML。...containers:- image: ascend-k8sdeviceplugin:v7.1.RC1name: device-plugin-01resources:requests:memory: 500Micpu: 500mlimits:memory: 500Micpu: 500mcommand: [ /bin/bash, -c, --]args: [ device-plugin-useAscendDockertrue-volcanoTypetrue # 重调度场景下必须使用Volcano-autoStowingtrue # 是否开启自动纳管开关默认为true设置为false代表关闭自动纳管当芯片健康状态由unhealthy变为healthy后不会自动加入到可调度资源池中关闭自动纳管当芯片参数面网络故障恢复后不会自动加入到可调度资源池中。该特性仅适用于Atlas 训练系列产品-listWatchPeriod5 # 设置健康状态检查周期范围[3,1800]单位为秒-logFile/var/log/mindx-dl/devicePlugin/devicePlugin.log-logLevel0 ]securityContext:privileged: truereadOnlyRootFilesystem: true...在K8s管理节点上各YAML对应路径下执行以下命令启动Ascend Device Plugin。以Atlas 训练系列产品、Atlas A2 训练系列产品、Atlas A3 训练系列产品或Atlas 800I A2 推理服务器、A200I A2 Box 异构组件的节点等为例执行下列启动命令。kubectl apply -f device-plugin-volcano-v{version}.yaml启动示例如下serviceaccount/ascend-device-plugin-sa createdclusterrole.rbac.authorization.K8s.io/pods-node-ascend-device-plugin-role createdclusterrolebinding.rbac.authorization.K8s.io/pods-node-ascend-device-plugin-rolebinding createddaemonset.apps/ascend-device-plugin-daemonset created在任意节点执行以下命令查看组件是否启动成功。kubectl get pod -n kube-system回显示例如下出现Running表示组件启动成功。NAME READY STATUS RESTARTS AGE...ascend-device-plugin-daemonset-d5ctz 1/1 Running 0 11s...安装NodeD操作步骤将NodeD软件包解压目录下的执行容器构建命令tag为版本号。执行以下命令查看镜像和版本号是否正确。docker images | grep noded将NodeD软件包解压目录下的YAML文件拷贝到K8s管理节点上任意目录。如不修改组件启动参数可跳过本步骤。否则请根据实际情况修改YAML文件中NodeD的启动参数。启动参数请可执行./noded -h查看参数说明。在管理节点的YAML所在路径执行以下命令启动NodeD。启动请执行以下命令。kubectl apply -f noded-v{version}.yaml启动示例如下 serviceaccount/noded createdclusterrole.rbac.authorization.k8s.io/pods-noded-role createdclusterrolebinding.rbac.authorization.k8s.io/pods-noded-rolebinding createddaemonset.apps/noded created执行以下命令查看组件是否启动成功。kubectl get pod -n mindx-dl回显示例如下出现Running表示组件启动成功。NAME READY STATUS RESTARTS AGE...noded-fd6t8 1/1 Running 0 74s...快速使用以参数面网络故障中的ROCE故障为例本节以Atlas 800T A2产品ROCE网卡故障为例介绍如何构造故障以及如何检测故障。故障构造以root用户登录计算节点查看网卡状态。hccn_tool -i {device_id} -link -g回显实例如下所示时网卡状态为健康。link status: UP执行以下命令构造网卡故障。hccn_tool -i 0 -link -s down回显实例如下所示时命令执行成功。[WARNING] This link down command will result in the loss of the IPv6 address, continue?(y/n)yCmd executed successfully!再次查询网卡状态回显为故障上报与查询以root用户登录K8S Master节点查看device-plugin上报到configmap中的故障信息。kubectl describe cm -n kube-system mindx-dl-deviceinfo-{node_name}故障信息如下所示可以查询到该故障的故障NPU、故障码和故障级别等信息。Name: mindx-dl-deviceinfo-{node_name}Namespace: kube-systemLabels: mx-consumer-cimtrueAnnotations: noneDataDescription:----The field[xxx.com/xxx] is sunset. Volcano has the ability to maintain the usage status of chips on its own, and can temporarily use this field by configuring the Volcano parameter self-maintain-available-cardDeviceInfoCfg:----{DeviceInfo:{DeviceList:{huawei.com/Ascend910:,huawei.com/Ascend910-DPUUnhealthy:,huawei.com/Ascend910-Fault:[{\fault_type\:\CardNetworkUnhealthy\,\npu_name\:\Ascend910-0\,\large_model_fault_level\:\PreSeparateNPU\,\fault_level\:\PreSeparateNPU\,\fault_handling\:\PreSeparateNPU\,\fault_code\:\81078603\,\fault_time_and_level_map\:{\81078603\:{\fault_time\:1776909232179,\fault_level\:\PreSeparateNPU\}}},],huawei.com/Ascend910-NetworkUnhealthy:Ascend910-0,huawei.com/Ascend910-Recovering:,huawei.com/Ascend910-Unhealthy:Ascend910-0,Ascend910-1,Ascend910-2,Ascend910-3,Ascend910-4,Ascend910-5,Ascend910-6,Ascend910-7},UpdateTime:1776909265},SuperPodID:-1,ServerIndex:1023,CheckCode:ed8f111131a04e17222e222347f73c3eeaeff611d27263ce8b66caae77858310}ManuallySeparateNPU:----UpgradeFaultReason:----{Ascend910-0:[{upgrade_time:1776909232179,fault_code:81078603,fault_level:PreSeparateNPU,upgrade_type:FaultDuration}]}BinaryDataEvents: none用户可通过监控每个节点的故障configmap信息获取每个节点的故障信息从而完成对应的运维工作。

一周读懂博弈论：从理性决策到信息博弈_Day3 静态博弈与纳什均衡：大家同时决策怎么办？

各位小伙伴们，大家好，今天接着学习博弈论一、为什么需要静态博弈？先看一个例子：假设街上有两家奶茶店。A奶茶店B奶茶店明天同时决定价格。双方都不知道对方会怎么定价。此时：A在思考：如果B降价怎么办&#…

2026/6/5 23:05:23 阅读更多

git status

文章目录1.简介2.格式3. 选项4. 示例4.1 完整格式输出4.2 短格式输出4.3 显示被忽略的文件5. 其他5.1 输出状态符号（短格式）5.2 常用别名设置6. 小结参考文献1.简介 git status 用于查看当前工作区（Working Directory）和暂存区&a…

2026/6/5 23:05:23 阅读更多

MicroBlaze软核调试避坑指南：从时钟配置到中断失效，手把手教你用Vivado和SDK搞定10个常见问题

MicroBlaze软核调试实战手册：从时钟校准到中断优化的深度解决方案在嵌入式系统开发领域，Xilinx的MicroBlaze软核处理器因其灵活性和可定制性备受开发者青睐。然而，当我们在Vivado环境中搭建好看似完美的系统后，调试阶段往往会遇到…

2026/6/5 23:04:22 阅读更多

DDrawCompat终极指南：如何在现代Windows上完美运行经典DirectX游戏

DDrawCompat终极指南：如何在现代Windows上完美运行经典DirectX游戏【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirro…

2026/6/6 0:26:17 阅读更多

Anthropic移除Contextual Pre-Filter层：AI推理链路‘蒸发式’架构演进

1. 项目概述：这不是一次普通更新，而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题乍看像科技媒体的夸张头条，但作为连续跟踪Claude模型演进三年、亲手部署过从Haiku到Sonnet再到Opus…

2026/6/6 0:25:37 阅读更多

数据预处理第一步：五维透视法做数据健康诊断

1. 项目概述：这不是“洗数据”，而是给数据做一次系统性体检“From Raw to Refined: A Journey Through Data Preprocessing — Part 1”这个标题，乍看像一篇学术综述，但在我带过37个工业级数据项目、亲手清洗过超210TB原始日志和业…

2026/6/6 0:25:37 阅读更多

终极开源抖音无水印下载器：3个技术挑战与创新解决方案

终极开源抖音无水印下载器：3个技术挑战与创新解决方案【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…

2026/6/6 0:24:56 阅读更多

中医科研，被“西医标准”逼到墙角？AI能破局吗？

最近，北京中医药大学研究生实名举报导师学术不端的事，在中医圈炸开了锅。有人叹息，有人愤怒，更多人沉默——因为大家心里都清楚：这不是一个人的问题，而是整个评价体系出了问题。用西医的尺子量中医&#xf…

2026/6/6 0:23:55 阅读更多

状态范数崩溃：WDLM-60M 外推失效的根因分析与修复

摘要：本文针对 WDLM-60M 模型在序列长度超过训练长度（1024）后困惑度（PPL）指数级崩溃的现象进行了系统分析。通过逐层追踪 cummax 状态范数的变化，定位到深层（L7、L8）状态值爆炸是直接…

2026/6/6 0:23:35 阅读更多

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

本文还有配套的精品资源，点击获取简介：专为机械设计场景打造的便携式凸轮设计辅助工具，运行在Windows平台，无需安装、不写注册表、不联网，双击主程序即可启动。提供直动/摆动两类从动件类型（尖顶、滚子…

2026/6/6 0:00:44 阅读更多

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统【免费下载链接】DeepPCB A PCB defect dataset. 项目地址: https://gitcode.com/gh_mirrors/de/DeepPCB 还在为PCB（印刷电路板）缺陷检测项目找不到高质量数据集而烦恼吗？面…

2026/6/6 0:01:04 阅读更多

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验【免费下载链接】Aimmy Universal Second Eye for Gamers with Impairments (Universal AI Aim Aligner (AI Aimbot) - ONNX/YOLOv8 - C#) 项目地址: https://gitcode.com/gh_mirrors/ai/…

2026/6/6 0:04:06 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/5 9:28:46 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/5 7:30:31 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/5 9:28:45 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/5 9:28:45 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/5 9:28:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/5 9:28:45 阅读更多

相关文章

一周读懂博弈论：从理性决策到信息博弈_Day3 静态博弈与纳什均衡：大家同时决策怎么办？

git status

MicroBlaze软核调试避坑指南：从时钟配置到中断失效，手把手教你用Vivado和SDK搞定10个常见问题

DDrawCompat终极指南：如何在现代Windows上完美运行经典DirectX游戏

Anthropic移除Contextual Pre-Filter层：AI推理链路‘蒸发式’架构演进

数据预处理第一步：五维透视法做数据健康诊断

终极开源抖音无水印下载器：3个技术挑战与创新解决方案

中医科研，被“西医标准”逼到墙角？AI能破局吗？

状态范数崩溃：WDLM-60M 外推失效的根因分析与修复

Windows下免安装凸轮轮廓生成工具：支持多种从动件与运动规律的本地化计算与DXF导出

DeepPCB数据集：3步构建高精度PCB缺陷检测AI系统

Aimmy完全指南：5分钟掌握免费AI瞄准辅助工具，提升游戏操作体验

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因