凌晨告警排查记：一次AWS EBS磁盘IO利用率100%的真相

发布时间：2026/7/6 4:07:22

确实实发生了那个时间点也只有这一个明显的操作。好吧排障的经典套路来了先看基础设施层面有没有瓶颈。常规指标一切正常登录监控系统Prometheus Grafana先扫了一眼传统三件套CPU不高才 20% 左右。内存也正常50% 左右。网络带宽用了 1Gbps 左右而 EC2 实例的基线带宽是 3Gbps离打满还远着呢。磁盘 IOPSEC2 跑的应用挂载的是 gp3 卷IOPS 基线 3000峰值可以飙到 12000 左右。当时的读写 IOPS 也就 500 多也没达到上限。这数据看着好像没什么问题……那应用为什么会慢等等。有个指标被我忽略了——磁盘 IO 利用率。注意Prometheus 中的node_disk_io_time_seconds或rate()化之后(具体是:instance_device:node_disk_io_time_seconds:rate5m)反映的是磁盘完成 IO 请求所花费的时间占比可以理解为磁盘的忙碌程度。如果这个值维持在 100%说明磁盘一直是满负荷运转的IO 请求排着队应用能不卡吗。赶紧查了下这个指标好家伙直接 100%这就矛盾了明明 IOPS 和网络带宽都没打满为啥磁盘会一直 100% 忙隐藏的凶手gp3 卷的吞吐量限制这时候我突然觉得不对劲仔细看了下网络流量和磁盘的指标。网络流量通过node_network_receive_bytes_total计算大约 1Gbps。磁盘吞吐量通过node_disk_bytes_total计算也是大约 1Gbps和网卡流量几乎完全吻合。等等gp3 卷的吞吐量上限是多少AWS 官网写得明明白白gp3 卷的吞吐量单独计价基础的吞吐量是 125 MB/s约 1 Gbps。不像 gp2, 如果你的 IOPS 和吞吐量都超出了基线可以利用积分burst credits但一旦积分耗尽吞吐量就会被硬性限制在 1 Gbps。gp3 卷的吞吐量上限默认就是 125 MB/s约 1 Gbps, burst 不了。除非你提前花钱买额外的吞吐量. 网卡流量 1 Gbps磁盘吞吐量 1Gbps这显然已经达到了 gp3 卷的 1Gbps 吞吐量限制。真相只有一个日志备份 job 产生了大量的磁盘写入/读取瞬间吃光了 gp3 卷的吞吐量积分导致后续所有的 IO 请求都被限速。应用发起的业务请求虽然 IOPS 不高但数据量不小也被堵在了队列里。磁盘 IO 利用率 100%并非 IOPS 不够而是吞吐量被卡住了。这就像是一个快递站gp3 卷的处理速度吞吐量是固定的突然来了一大卡车货日志备份把整条传送带占满了。后面来的一箱箱 VIP 快件业务请求只能等着自然就超时了。️ 如何确认这个猜想为了验证我快速查了以下信息对比网络入流量和磁盘写入量确认两者高度一致都达到了 1Gbps。这说明磁盘写入和网络流量是一路货。确认 gp3 卷的吞吐量配置检查控制台确认该卷的吞吐量配置确实是默认的 125MB/s1Gbps。这次排查教会了我们什么️ 做得好的地方监控覆盖全面我们部署了 node_exporter采集了磁盘 IO 利用率、IOPS、网络带宽等几乎全部的关键指标没有出现盲区。常规指标都排查了第一时间排查了 CPU、内存、IOPS、带宽这是非常正确的第一反应。数据对比能力强能迅速对比网络流量和磁盘吞吐量发现两者数值吻合这是最关键的一步。需要改进的地方对监控指标理解不够深只关注了 IOPS 和带宽是否打满而忽视了IO 利用率这个关键指标。它才是反映应用是否在排队等待 IO的望远镜。对 AWS 卷类型特性不熟虽然最后发现是 gp3 限速但排查过程中对 gp3/gp2 等不同卷类型的IOPS/吞吐量/积分机制缺乏系统了解。当时是 gp3真真切切被它坑了。所以一个卷性能速查表是多么重要。排查流程不够完整排查时应该在常规指标正常后就立刻转向磁盘 IO 队列深度instance_device:node_disk_io_time_weighted_seconds:rate5m这是判断 IO 是否真的拥堵的核心指标而不是只看利用率。写在最后一份实用的 EBS 性能排查清单这次 Case 让我意识到很多云原生云计算的坑都是对底层基础设施的一知半解导致的。以后排查类似问题建议按以下顺序走看现象应用慢、超时。扫硬件CPU、内存、IOPS、带宽。⚠️ 如果这些指标都正常立刻进入第三步。看 IO 队列检查instance_device:node_disk_io_time_weighted_seconds:rate5m指标判断是否有 IO 拥堵。如果 IO 队列高但 IOPS 不高大概率是吞吐量或 IO 模型问题。对比流量查看网卡流量和磁盘写入/读取吞吐量看它们是否匹配。验证假设确认是 EBS 限速根据EBS类型判断是查BurstBalance指标, 还是查 IOPS 和吞吐量等指标。确认是应用 IO 模型问题分析具体是哪个文件的读写导致 IO 高如/var/log的日志。调整配置EBS 限速升级卷类型如 gp3 → io2或调整吞吐量基线。应用问题优化日志输出如异步、批量、减少日志级别调整 cronjob 的执行周期或错峰, 日志备份限速等。对云服务的更多思考经历了这次问题, 我专门查找了相关的资料, 发现云服务的限制不止这些.云服务虽带来弹性与可扩展性但网络节流带宽限制常被忽视是导致应用响应慢、卡顿的重要原因。即便CPU、内存等指标正常网络节流仍会通过丢包、重传大幅增加延迟引发服务中断、性能不稳定甚至造成数百万美元收入损失。核心问题云服务商AWS、Azure、GCP等根据实例大小设定带宽基线超出后触发自动节流如AWS的突发积分耗尽后降速。节流规则复杂、不透明传统监控如仅测RTT无法有效识别NTP精度不足PTP成本高。常见场景与解决方案持续高利用率升级实例、负载分散、智能缓存。微突发Microburst应用级限速、流量整形、高粒度监控。未来应对策略实施实时单向延迟监控。

！ccstatusline：让你的 Claude Code 状态栏直接封神！

一、ccstatusline 介绍ccstatusline 是一款高度可定制的状态栏格式化工具，能在终端中显示 Claude Code 的实时运行指标，目前在 GitHub 上已有 9k Star，社区活跃度很高。支持 50 种可定制组件，我常用的包括：组件类型具体…

2026/7/6 4:07:02 阅读更多

DVWA从入门到精通（十二）：XSS (DOM)（DOM型XSS）

摘要：本文是《DVWA从入门到精通》系列的第十二篇，带你全面掌握XSS (DOM)（DOM型XSS）模块的攻防全流程。从DOM型XSS的核心原理出发，逐步讲解Low、Medium、High三个级别的攻击手法与源码分析，并深入探讨Imposs…

2026/7/6 4:06:21 阅读更多

2026实战｜RPA工程师真相 + 0基础入行 + 攻略（含超级自动化 + AI+RPA），看完直接落地

引言：为什么2026年RPA工程师依然炙手可热？ 在数字化转型浪潮席卷全球的今天，RPA（机器人流程自动化）已成为企业降本增效的核心利器。根据Gartner最新报告，到2026年，全球90%的大型组织将采用RPA技…

2026/7/6 4:06:21 阅读更多

Windows电脑安装APK文件：APK安装器的革命性体验

Windows电脑安装APK文件：APK安装器的革命性体验【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否厌倦了在电脑和手机之间来回传输文件的繁琐&#xff…

2026/7/6 5:16:48 阅读更多

FreeRTOS任务调度的底层逻辑：就绪列表和优先级那些事

FreeRTOS任务调度的底层逻辑：就绪列表和优先级那些事你有没有想过，当你在一个FreeRTOS任务里调用 vTaskDelay(10)，CPU 在这一瞬间发生了什么？任务去睡觉了，谁把它叫醒？另一个优先级更高的任务来了&#xff…

2026/7/6 5:16:48 阅读更多

高性能Android电视媒体播放器架构设计与优化指南

高性能Android电视媒体播放器架构设计与优化指南【免费下载链接】vlc-android VLC for Android, Android TV and ChromeOS 项目地址: https://gitcode.com/gh_mirrors/vl/vlc-android VLC for Android电视版是一款基于libvlc核心解码引擎的开源多媒体播放器&#xff0…

2026/7/6 5:16:47 阅读更多

RAG 入门：检索增强生成是什么，解决什么问题

RAG 入门：检索增强生成是什么，解决什么问题大模型很聪明，但有两个硬伤：知识过时、不知道你的私有数据。RAG（检索增强生成）就是解决这个问题的——先从知识库检索相关内容，再让大模型基于检索结果…

2026/7/6 5:16:27 阅读更多

2026年汇川技术嵌入式岗位面试题带参考答案

汇川技术核心业务场景（工业自动化、伺服驱动、变频器、新能源汽车电控），遵循**「硬件优先、核心项目前置」**原则排序，覆盖项目经验、外设通信、处理器架构、驱动开发、实时操作系统、Linux内核、语言算法、综合素养八大模块，筛选工业嵌入式岗位高频考点。题目数量统计 …

2026/7/6 5:16:27 阅读更多

AI 身份验证与授权：为什么传统安全模式恰好是 AI 时代需要的

AI 身份验证与授权：为什么传统安全模式恰好是 AI 时代需要的引言当所有人都在 rush to ship AI agents 时，一个关键的真相被遗忘了：2010 年代保护 API 繁荣的身份验证和授权模式，恰恰是你今天保护 AI 系统所需要的东西。如果…

2026/7/6 5:16:07 阅读更多

Windows任务栏终极清理指南：用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南：用RBTray一键隐藏窗口到系统托盘【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:12 阅读更多

多协议远程连接管理工具mRemoteNG：告别混乱，统一你的远程桌面管理

多协议远程连接管理工具mRemoteNG：告别混乱，统一你的远程桌面管理【免费下载链接】mRemoteNG mRemoteNG is the next generation of mRemote, open source, tabbed, multi-protocol, remote connections manager. 项目地址: https://gitcode.com/gh_m…

2026/7/6 0:03:14 阅读更多

私有云管理平台登录绕过漏洞：从客户端信任模型到安全防御实践

1. 项目概述：一次典型的私有云管理平台登录绕过漏洞复现最近在整理内部安全测试案例库时，翻到了一个挺有意思的旧案例，是关于一个私有云管理平台的登录绕过漏洞。这个漏洞的利用方式非常“经典”，属于那种在特定开发框架或编码习惯…

2026/7/6 0:05:36 阅读更多

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾为Windows右键菜单中那些…

2026/7/6 0:01:07 阅读更多

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述：从GitHub Trending看安全实战最近在GitHub Trending上看到一个项目，叫 skills4/skills ，它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景：一个旨在展示或教授某种技能的仓库，本身却成了安…

2026/7/6 0:02:36 阅读更多

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示：因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战：从“黑箱预测”到“可信推理”2026年6月，第7届机器学习与趋势国际会议（MLT 2026）将在悉尼召开。会议议程中，“因果与可解释机器学习…

2026/7/6 0:01:10 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/6 0:37:22 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/6 0:37:17 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/6 0:26:12 阅读更多

相关文章