CANN-昇腾NPU-推理服务监控-怎么实时监控NPU状态

发布时间：2026/5/23 23:18:09

推理服务上线后NPU 利用率、显存、温度、功耗都需要实时监控。CANN 提供了npu-smi和 Python API 两套监控方案。这篇讲清楚怎么用。npu-smi命令行监控npu-smi是 CANN 自带的诊断工具# 查看所有 NPU 状态npu-smi info# 查看某个 NPU 的详细状态npu-smi info-i0# 实时监控每 1 秒刷新watch-n1npu-smi info# 查看 NPU 温度npu-smi info-ttemp# 查看 NPU 功耗npu-smi info-tpower输出示例NPU ID: 0 Chip ID: 0 Product Name: Atlas 800I A2 AI Core Utilization: 72% ← 算力利用率 Memory Utilization: 85% ← 显存利用率 Temperature: 65°C ← 温度 Power: 300W / 400W ← 当前功耗 / TDP Memory Used: 48GB / 64GB ← 显存占用Python API 监控推理服务内部用 Python API 采集监控数据importtorch_npuimporttimeclassNPUMonitor:def__init__(self,device_id0):self.device_iddevice_iddefcollect(self):return{utilization:torch_npu.npu.utilization(self.device_id),memory_allocated:torch_npu.memory_allocated(self.device_id),memory_reserved:torch_npu.memory_reserved(self.device_id),temperature:torch_npu.npu.temperature(self.device_id),power:torch_npu.npu.power(self.device_id),}# 后台线程定期采集importthreading monitorNPUMonitor(device_id0)defmonitor_loop():whileTrue:statsmonitor.collect()print(f[{time.strftime(%H:%M:%S)}]{stats})time.sleep(5)threading.Thread(targetmonitor_loop,daemonTrue).start()Prometheus 集成线上服务用 Prometheus Grafana 做监控fromprometheus_clientimportGauge,start_http_server# 定义指标npu_utilGauge(npu_utilization_percent,NPU Utilization,[device])npu_memGauge(npu_memory_used_bytes,NPU Memory Used,[device])npu_tempGauge(npu_temperature_celsius,NPU Temperature,[device])npu_powerGauge(npu_power_watts,NPU Power,[device])# 定期更新指标defupdate_metrics():monitorNPUMonitor(device_id0)whileTrue:statsmonitor.collect()npu_util.labels(devicenpu:0).set(stats[utilization])npu_mem.labels(devicenpu:0).set(stats[memory_allocated])npu_temp.labels(devicenpu:0).set(stats[temperature])npu_power.labels(devicenpu:0).set(stats[power])time.sleep(5)threading.Thread(targetupdate_metrics,daemonTrue).start()# 启动 Prometheus HTTP 端点start_http_server(8000)Grafana 面板配置panels:-title:NPU Utilizationexpr:npu_utilization_percent{devicenpu:0}type:graph-title:NPU Memoryexpr:npu_memory_used_bytes{devicenpu:0}/ 1024 / 1024 / 1024type:gauge-title:NPU Temperatureexpr:npu_temperature_celsius{devicenpu:0}type:gauge-title:NPU Powerexpr:npu_power_watts{devicenpu:0}type:gauge告警规则关键告警规则# Prometheus 告警规则groups:-name:npu_alertsrules:-alert:NPUUtilizationLowexpr:npu_utilization_percent{devicenpu:0} 20for:5mannotations:summary:NPU 利用率过低20%可能影响吞吐-alert:NPUMemoryHighexpr:npu_memory_used_bytes / npu_memory_total_bytes0.95for:1mannotations:summary:NPU 显存使用率 95%可能 OOM-alert:NPUTemperatureHighexpr:npu_temperature_celsius80for:2mannotations:summary:NPU 温度 80°C请检查散热-alert:NPUPowerHighexpr:npu_power_watts / npu_power_max_watts0.95for:1mannotations:summary:NPU 功耗接近 TDP可能降频日志集成把 NPU 监控数据写入推理日志importlogging loggerlogging.getLogger(inference)classLoggingMonitor:def__init__(self,interval60):self.intervalinterval self.monitorNPUMonitor(device_id0)defstart(self):defloop():whileTrue:statsself.monitor.collect()logger.info(fNPU Stats: util{stats[utilization]:.1f}% fmem{stats[memory_allocated]/1024/1024/1024:.1f}GB ftemp{stats[temperature]}°C fpower{stats[power]:.0f}W)time.sleep(self.interval)threading.Thread(targetloop,daemonTrue).start()故障排查问题 1NPU 利用率低30%可能原因Batch size 太小decode 阶段 M1算子没融合GE 编译没生效数据预处理在 CPUNPU 等数据排查npu-smi info看 AI Core UtilizationProfiler 看 kernel 时间。问题 2显存泄漏# 定期打印显存print(fAllocated:{torch_npu.memory_allocated()/1024/1024/1024:.1f}GB)print(fReserved:{torch_npu.memory_reserved()/1024/1024/1024:.1f}GB)如果 Allocated 在增长但 Reserved 不变说明有 tensor 没释放可能保存在某个地方了。问题 3温度报警检查机箱风道是否通畅NPU 风扇转速npu-smi info -t fan机房空调是否正常推理服务的监控是上线前的必修课。npu-smi 做快速诊断Python API 做精细化采集Prometheus Grafana 做长期监控和告警。三个层次都要有。仓库在这里https://atomgit.com/cann/torch_npu

工业级房价预测实战：从数据清洗到可解释模型部署

1. 这不是“调个模型就完事”的房价预测——而是一次完整的工业级回归建模实战复盘你打开Kaggle，下载一个带“house price”字样的CSV文件，pandas读进来，train_test_split切两刀，RandomForestRegressor.fit()跑完，R显示…

2026/5/23 23:16:27 阅读更多

算力受限下的大模型微调实战：数据、模型与计算三层妥协法

1. 项目概述：这不是“又一个大模型训练指南”，而是一份算力吃紧时的生存手记“Compute-efficient Way to Scale LLM — Journey around data, model, and compute”——这个标题里没有“SOTA”“Zero-shot”“MoE”这类炫技词，也没有“千亿参…

2026/5/23 23:16:07 阅读更多

CVE-2025-68493深度解析：OGNL沙箱坍塌与Java Web内网横向移动

1. 这不是一次“普通”的远程代码执行：CVE-2025-68493 的真实杀伤半径远超想象我第一次在客户生产环境的WAF日志里看到那个异常长的OGNL表达式时，以为是扫描器误报。URL里嵌着一串密密麻麻的#context[xwork.MethodAccessor.denyMethodExecution]false、#…

2026/5/23 23:16:07 阅读更多

2026年论文党必备：盘点2026年倾心之选的的降AIGC网站

轻松降低论文AI率在2026年已不再是天方夜谭。以下是2026年最炸裂、实测效果显著的降AIGC网站神器，覆盖AI痕迹消除、文本改写润色、降重优化、学术合规检测四大核心场景，帮你稳妥搞定毕业论文。一、全流程王者：一站式搞定论文全链路这类工具…

2026/5/24 0:07:19 阅读更多

211本科985硕拿下淘天AI二面！全程无代码，这面试题火了！

本文分享了作者在淘天AI应用开发二面中的面试经历，全程不到60分钟，没有手撕代码，也没有问常规Java八股。面试主要围绕自我介绍、AI相关问题、工程与安全问题、项目提问以及反问环节展开。AI相关问题涉及对AI的看法、常用AI工具等；…

2026/5/24 0:06:37 阅读更多

我以为AI要淘汰程序员，直到我发现真正被淘汰的，是这3种人

文章探讨了AI技术，特别是ChatGPT对程序员行业的影响。作者通过自身经历和观察，指出AI并不会直接淘汰程序员，而是会淘汰那些只会执行、不会判断，只使用AI而不思考，以及拒绝学习新技术的程序员。文章建议程序员应将重点放…

2026/5/24 0:06:17 阅读更多

政务管理领域大模型应用场景

一、引言 📊 政务管理是交通大模型重要应用领域，10 个典型案例占总数 116 个的9%。核心价值：从"经验决策"到"数据决策"，实现政策更精准、服务更高效、数据更畅通。四大场景： • 政策评估&#x…

2026/5/24 0:06:17 阅读更多

使用curl命令在无GUI环境中快速测试Taotoken API

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度使用curl命令在无GUI环境中快速测试Taotoken API 对于习惯命令行操作或在服务器等无图形界面环境中工作的开发者而言，直…

2026/5/24 0:04:35 阅读更多

3个PDF编辑痛点，用这个免费工具轻松搞定！PDF补丁丁全面解析

3个PDF编辑痛点，用这个免费工具轻松搞定！PDF补丁丁全面解析【免费下载链接】PDFPatcher PDF补丁丁——PDF工具箱，可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档，探查文档结构，提取图片、转成图片等等项目…

2026/5/24 0:04:35 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

工业级房价预测实战：从数据清洗到可解释模型部署

算力受限下的大模型微调实战：数据、模型与计算三层妥协法

CVE-2025-68493深度解析：OGNL沙箱坍塌与Java Web内网横向移动

2026年论文党必备：盘点2026年倾心之选的的降AIGC网站

211本科985硕拿下淘天AI二面！全程无代码，这面试题火了！

我以为AI要淘汰程序员，直到我发现真正被淘汰的，是这3种人

政务管理领域大模型应用场景

使用curl命令在无GUI环境中快速测试Taotoken API

3个PDF编辑痛点，用这个免费工具轻松搞定！PDF补丁丁全面解析

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥