告别sinfo的‘简陋’输出：手把手教你用Bash脚本打造Slurm集群状态监控面板

发布时间：2026/6/1 7:27:39

告别sinfo的‘简陋’输出手把手教你用Bash脚本打造Slurm集群状态监控面板在Slurm集群的日常运维中管理员和高级用户经常需要快速掌握集群的整体状态。原生的sinfo和squeue命令虽然功能强大但默认输出往往信息分散、格式杂乱特别是在处理大规模集群时用户需要花费大量时间在原始数据中寻找关键信息。本文将带你从零开始构建一个功能完善的Slurm集群监控面板通过精心设计的Bash脚本将分散的节点状态、资源使用情况和作业信息整合成一个直观的可视化界面。1. 为什么需要自定义监控面板Slurm作为高性能计算领域最常用的作业调度系统其命令行工具提供了丰富的集群管理功能。但默认输出存在几个明显痛点信息分散节点状态、资源使用和作业列表分散在不同命令的输出中可读性差关键数据淹没在大量文本中缺乏视觉焦点缺乏上下文资源使用情况与运行作业无法直观关联定制困难默认输出格式固定难以满足不同场景的监控需求一个设计良好的监控面板应该具备以下特征# 理想监控面板的示例输出 Hostname Partition Node/State Num_CPU CPUload Memsize(MB) Freemem(MB) GRES/Node Joblist node01 gpu-part idle 32 0.12 128000 112000 gpu:2 - node02 cpu-part allocated 64 1.85 256000 48000 - 12345(user1)2. 构建监控面板的核心组件2.1 基础信息采集监控面板的核心是从Slurm获取原始数据并进行加工处理。我们需要组合使用多个Slurm命令# 获取节点基础信息 nodes$(sinfo -o %N %P %T %C %O %m %e %G -h) # 获取作业列表 jobs$(squeue -h -o %i %u %b %N)关键字段说明字段说明来源命令%N节点名sinfo%P分区名sinfo%T节点状态sinfo%CCPU数量sinfo%OCPU负载sinfo%m内存总量sinfo%e可用内存sinfo%G通用资源sinfo%i作业IDsqueue%u用户名squeue%b资源需求squeue2.2 数据处理与格式化获取原始数据后需要通过awk、sed等工具进行加工处理# 示例提取并格式化节点信息 echo $nodes | while read node; do hostname$(echo $node | awk {print $1}) partition$(echo $node | awk {print $2}) state$(echo $node | awk {print $3}) # 其他字段处理... done对于作业列表我们需要按节点进行分组和聚合# 获取指定节点的作业列表 get_jobs_for_node() { local node$1 squeue -h -o %i(%u) -w $node | tr \n }2.3 可视化增强为提高可读性我们可以添加颜色编码和表格布局# 定义颜色常量 RED\033[0;31m GREEN\033[0;32m YELLOW\033[0;33m NC\033[0m # No Color # 根据状态设置颜色 get_state_color() { case $1 in idle) echo $GREEN ;; allocated) echo $RED ;; mixed) echo $YELLOW ;; *) echo $NC ;; esac }3. 完整脚本实现以下是整合所有功能的完整脚本实现#!/bin/bash # 颜色定义 RED\033[0;31m GREEN\033[0;32m YELLOW\033[0;33m BLUE\033[0;34m NC\033[0m # No Color # 列宽定义 COL_HOST15 COL_PART12 COL_STATE11 COL_CPU15 COL_LOAD8 COL_MEM_T12 COL_MEM_F12 COL_GRES15 COL_JOBS30 # 打印表头 printf ${BLUE}%-${COL_HOST}s %-${COL_PART}s %-${COL_STATE}s %-${COL_CPU}s %-${COL_LOAD}s %-${COL_MEM_T}s %-${COL_MEM_F}s %-${COL_GRES}s %-${COL_JOBS}s${NC}\n \ Hostname Partition State CPU(C/T) Load MemTotal MemFree GRES Jobs(User) # 获取节点信息并处理 sinfo -o %N %P %T %c %O %m %e %G -h | while read node; do # 解析节点信息 hostname$(echo $node | awk {print $1}) partition$(echo $node | awk {print $2}) state$(echo $node | awk {print $3}) cores_total$(echo $node | awk {print $4}) load$(echo $node | awk {print $5}) mem_total$(echo $node | awk {print $6}) mem_free$(echo $node | awk {print $7}) gres$(echo $node | awk {print $8}) # 获取作业信息 jobs$(squeue -h -o %i(%u) -w $hostname | tr \n ) # 设置状态颜色 case $state in idle) color$GREEN ;; allocated) color$RED ;; mixed) color$YELLOW ;; *) color$NC ;; esac # 打印节点信息 printf %-${COL_HOST}s %-${COL_PART}s ${color}%-${COL_STATE}s${NC} %-${COL_CPU}s %-${COL_LOAD}s %-${COL_MEM_T}s %-${COL_MEM_F}s %-${COL_GRES}s %-${COL_JOBS}s\n \ $hostname $partition $state $cores_total $load $mem_total $mem_free $gres $jobs done4. 高级功能扩展4.1 实时刷新功能通过watch命令实现自动刷新watch -n 10 -c ./slurm_dashboard.sh4.2 资源使用率计算添加CPU和内存使用率计算# 计算CPU使用率 cpu_usage$(echo scale1; $load * 100 / $cores_total | bc) # 计算内存使用率 mem_usage$(echo scale1; ($mem_total - $mem_free) * 100 / $mem_total | bc)4.3 告警阈值设置根据资源使用率添加颜色提示# CPU使用率颜色 if (( $(echo $cpu_usage 90 | bc -l) )); then cpu_color$RED elif (( $(echo $cpu_usage 70 | bc -l) )); then cpu_color$YELLOW else cpu_color$GREEN fi4.4 多维度排序支持添加按CPU、内存等指标排序的功能# 按CPU使用率排序 sorted_nodes$(sinfo -o %N %P %T %c %O %m %e %G -h | sort -k5 -rn)5. 部署与集成5.1 系统级部署将脚本部署为系统命令供所有用户使用# 复制脚本到系统目录 sudo cp slurm_dashboard.sh /usr/local/bin/slurm-dashboard # 设置执行权限 sudo chmod x /usr/local/bin/slurm-dashboard5.2 登录自动显示在/etc/profile.d/中添加脚本实现登录时自动显示# 创建自动执行脚本 echo [[ $- *i* ]] slurm-dashboard | sudo tee /etc/profile.d/slurm-dashboard.sh # 设置权限 sudo chmod x /etc/profile.d/slurm-dashboard.sh5.3 Web界面集成通过CGI脚本将监控面板集成到Web界面#!/bin/bash echo Content-type: text/html echo echo pre slurm-dashboard echo /pre6. 性能优化技巧对于大型集群原始命令执行可能较慢可以采用以下优化措施并行获取数据使用GNU parallel并行执行节点信息采集缓存机制对不常变化的信息进行缓存增量更新只更新发生变化的部分数据预处理在后台定期运行信息采集任务# 使用parallel并行处理 sinfo -o %N -h | parallel -j 10 sinfo -o %N %P %T %c %O %m %e %G -h -n {}在实际部署中我们发现对于超过100个节点的集群合理的脚本优化可以将响应时间从10秒以上降低到2秒以内。

Boss Show Time：3个技巧帮你快速筛选最新招聘岗位

Boss Show Time：3个技巧帮你快速筛选最新招聘岗位【免费下载链接】boss-show-time 展示boss直聘岗位的发布时间项目地址: https://gitcode.com/GitHub_Trending/bo/boss-show-time 还在为海量招聘信息而烦恼吗？面对成千上万的职位列表&#xff…

2026/6/1 7:26:59 阅读更多

Arm Neoverse V2性能监控架构与实战解析

1. Arm Neoverse V2性能监控架构概览 Arm Neoverse V2作为面向基础设施的高性能处理器核心，其性能监控单元(PMU)的设计体现了现代处理器性能分析的先进理念。PMU通过一组精密的硬件计数器与专用寄存器，为开发者提供了洞察微架构行为的窗口。在云计算、5G…

2026/6/1 7:26:18 阅读更多

别再让前端背锅了！Java后端用iText7搞定HTML转PDF，水印页码全都有（附完整代码）

Java后端工程师的PDF生成实战：用iText7实现高性能HTML转PDF在前后端分离架构盛行的今天，PDF生成这个看似简单的需求常常成为团队协作的痛点。前端工程师抱怨浏览器生成PDF性能低下，而后端团队又担心引入复杂的PDF处理逻辑会增加系统负担。本文…

2026/6/1 7:26:18 阅读更多

手把手教你用THB6128驱动模块搞定两相四线步进电机（附PWM控制与细分设置避坑指南）

从零玩转THB6128：两相步进电机驱动全攻略与PWM实战技巧第一次拿到THB6128驱动模块时，看着密密麻麻的拨码开关和接线端子，不少电子爱好者都会感到无从下手。这个巴掌大的板子藏着驱动两相步进电机的强大能力，但需要正确配置才能发挥…

2026/6/1 10:40:56 阅读更多

Windows窗口置顶神器：3步解决多任务窗口遮挡难题，工作效率提升80%

Windows窗口置顶神器：3步解决多任务窗口遮挡难题，工作效率提升80% 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 你是否经常在忙碌的工作中频繁切换窗口…

2026/6/1 10:40:56 阅读更多

yolov26改进 | 添加注意力机制篇 | 2026医学最新注意力机制AFIA抑制图像噪声环境影响（全网独家首发）

开始讲解之前推荐一下我的专栏，本专栏的内容支持(分类、检测、分割、追踪、关键点检测),专栏目前为限时折扣，欢迎大家订阅本专栏，本专栏每周更新5-7篇最新机制，更有包含我所有改进的文件和交流群提供给大家，本人定期在…

2026/6/1 10:40:56 阅读更多

揭秘AI换脸技术革命：ComfyUI Reactor Node如何重塑创意工作流

揭秘AI换脸技术革命：ComfyUI Reactor Node如何重塑创意工作流【免费下载链接】comfyui-reactor-node Fast and Simple Face Swap Extension Node for ComfyUI 项目地址: https://gitcode.com/gh_mirrors/co/comfyui-reactor-node 你是否曾为复杂的AI换脸技术…

2026/6/1 10:39:54 阅读更多

S2.1触发设计：如何成为用户的默认选择

触发设计：如何成为用户的默认选择导读：上瘾模型的第一个齿轮——让用户在正确的时间想起你的产品。一个日常场景早上醒来，你迷迷糊糊拿起手机。不需要思考，手指自动点开微信——看看有没有新消息。这个过程如此自然&#xff0c…

2026/6/1 10:38:51 阅读更多

大模型训练流程实战：从预训练到推理的完整技术解析

大模型训练流程实战：从预训练到推理的完整技术解析导读：本文系统梳理大语言模型从预训练到推理的完整技术链路，涵盖数据工程、SFT微调、RLHF对齐、推理机制、幻觉治理等核心环节，结合实战代码与深度案例，帮助开发者建立端到端的训练认知。第一章核心认知：大模型的本质…

2026/6/1 10:38:51 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/1 0:06:19 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/1 0:24:01 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/1 2:19:25 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/1 0:23:56 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

2026/6/1 0:00:11 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

2026/6/1 0:03:17 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

2026/6/1 0:06:19 阅读更多

相关文章

Boss Show Time：3个技巧帮你快速筛选最新招聘岗位

Arm Neoverse V2性能监控架构与实战解析

别再让前端背锅了！Java后端用iText7搞定HTML转PDF，水印页码全都有（附完整代码）

手把手教你用THB6128驱动模块搞定两相四线步进电机（附PWM控制与细分设置避坑指南）

Windows窗口置顶神器：3步解决多任务窗口遮挡难题，工作效率提升80%

yolov26改进 | 添加注意力机制篇 | 2026医学最新注意力机制AFIA抑制图像噪声环境影响（全网独家首发）

揭秘AI换脸技术革命：ComfyUI Reactor Node如何重塑创意工作流

S2.1触发设计：如何成为用户的默认选择

大模型训练流程实战：从预训练到推理的完整技术解析

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因