K8s 集群 “3 节点 2 个 NotReady“ 故障排查全记录

发布时间：2026/5/28 19:10:43

K8s 集群 “3 节点 2 个 NotReady” 故障排查全记录小刘运维的排错实战从飞书搭机器人到修好整个 K8s 集群再到产品化巡检工具上周接了一个运维咨询的单子客户有一套 3 节点的 K8s 集群v1.27.16运行了快一年最近发现node-2 和 node-3 双双 NotReady只有 node-1 还在坚守岗位。于是有了今天这场排错实战。整个过程从调试巡检脚本开始到发现根因并修复最后把巡检工具产品化——推送到 GitHub、对接飞书机器人实现自动推送。记录成文希望对同行有帮助。一、问题现象k8s集群3 个node节点2 个 NotReadykubectl get nodes二、排查过程全记录1: 看节点详情kubectl describenodenode-2|grep-A20Conditions输出显示所有 condition 全部显示Unknown最后一个心跳时间是 3 天前Ready Unknown ... Kubelet stopped posting node status. MemoryPressure Unknown ... Kubelet stopped posting node status. DiskPressure Unknown ... Kubelet stopped posting node status. PIDPressure Unknown ... Kubelet stopped posting node status.关键信息Kubelet stopped posting node status— kubelet 还在跑但连不上 API Server 了。2: 查 kubelet 日志journalctl-ukubelet --no-pager-n20日志里反复出现同一行错误dial tcp 192.168.91.254:6443: i/o timeoutkubelet 在尝试连接 API Server 的 VIP192.168.91.254:6443但全部超时。3: 测试 VIP 连通性从 master-1 测试[rootmaster-1 ~]# ping 192.168.91.25464bytes from192.168.91.254:icmp_seq1ttl64time0.414ms ✅[rootmaster-1 ~]# curl -sk https://192.168.91.254:6443/healthz{kind:Status,code:401}# 401 是正常的说明 API 可达 ✅从 node-2 测试[rootnode-2 ~]# ping 192.168.91.2543packets transmitted,0received,100% packet loss ❌[rootnode-2 ~]# curl -sk https://192.168.91.254:6443/healthz... 超时...有意思了master 能连 VIPworker 不能。4: ARP 探测发现关键线索# 从 master-1 看 VIP 的 MAC[rootmaster-1 ~]# ip neigh show 192.168.91.254192.168.91.254 dev ens32 lladdr 00:0c:29:86:74:65 REACHABLE# 从 node-2 看 VIP 的 MAC[rootnode-2 ~]# ip neigh show 192.168.91.254192.168.91.254 dev ens32 lladdr 00:50:56:ec:2f:c0 REACHABLE同一个 VIP不同的 MAC 地址这显然有问题。00:0c:29:86:74:65是谁的 MAC查一下[rootmaster-1 ~]# ssh root192.168.91.20 ip link show ens32 | grep etherlink/ether 00:0c:29:86:74:65原来是master-3192.168.91.20持有 VIP。而00:50:56:ec:2f:c0则是另一个未知设备在网络上冒领了 ARP 请求。根因找到了VIP 在 master-3 上但 worker 节点解析到的 MAC 地址是错的导致流量被引向一个不可达的设备。5: 看看 keepalived 怎么回事检查各 master 的 keepalived 状态ipaddr show ens32|grep254inet192.168.91.254/24 scope global secondary ens32 ← VIP 在 master-3 上keepalived 的 VRRP 协议用的是优先级选主三个 master 优先级都是 100。同优先级时 IP 大的胜出所以 VIP 总是在 master-3192.168.91.20上。而 master-3 和 node-2/3 之间的网络存在ARP 冲突——有一个设备在冒充 VIP 的 MAC 地址导致 node-2/3 的流量被误引。三、修复过程1.修复方案最简单的方案让 VIP 漂到一个所有节点都能访问的 master 上。停掉 master-3 的 keepalivedsystemctl stop keepalivedVIP 自动漂移到 master-2192.168.91.19ipa|grep2542.验证修复效果再次从 node-2 测试 VIPping192.168.91.25464bytes from192.168.91.254:icmp_seq2ttl64time0.465ms ✅[rootnode-2 ~]# curl -sk https://192.168.91.254:6443/healthz{kind:Status,code:401}✅节点状态检查Flannel 网络自动恢复之前因为连不上 ClusterIP 10.0.0.1 而 CrashLoopBackOffkubectl get pods-nkube-flannel至此集群全面恢复。四、复盘总结1.根因图谱keepalived VIP 在 master-3 上 ↓ 网络上存在 ARP 冲突不明设备抢答 VIP 的 MAC ↓ node-2/3 解析到错误的 MAC 地址 ↓ kubelet 连不上 API Serveri/o timeout ↓ NodeNotReady、Flannel CrashLoopBackOff2.为什么 node-1 没事node-1 的 IP 是 192.168.91.21恰好和 master-3 也有良好的网络连通性。所以同一个 ARP 问题只影响 node-2/3。3.教训与改进教训改进措施依赖 VIP 连接 API Server 有单点风险每个节点 kubelet 配置多个 master IP 做 fallbackkeepalived 主从策略不清晰明确设置优先级避免同优先级靠 IP 排序的隐性规则没有巡检机制部署巡检脚本天级别健康检查没有告警通知对接飞书出问题第一时间知道五、附巡检工具产品化既然修好了顺便做了产品化1. 巡检脚本 → GitHub 开源仓库地址https://github.com/liuxing141/k8s-health-check一键运行检查 9 大项节点健康、Pod 状态、资源使用、异常事件、安全基线、Helm Release、TLS 证书等。2. 对接飞书机器人写了个 Python 脚本跑完巡检自动推送到飞书python3 k8s-health-check-feishu.py报告直接飞到手机再也不用 SSH 上去看了。3. 定时任务309* * *cd~/k8s-health-check-repopython3 k8s-health-check-feishu.py每天早上 9 点半自动跑一遍有问题第一时间知道。六、总结这次排错虽然花了不少时间但收获很大VIP ≠ 高可用如果底层网络有问题VIP 反而带来更多麻烦巡检不是可有可无如果没有巡检报告出问题了只能被动等客户投诉工具要产品化同样的脚本能不能在下一个客户那直接用能的话就是一杆枪希望这篇文章对你的运维工作有帮助。有问题欢迎交流作者一名不想上班的 SRE巡检工具https://github.com/liuxing141/k8s-health-check

Gentoo安装后必做的10件事：从基础系统到高效开发环境的保姆级配置清单

Gentoo安装后必做的10件事：从基础系统到高效开发环境的保姆级配置清单当你完成Gentoo的基础安装后，面对这个"裸"系统可能会感到无从下手。本文将带你从零开始，逐步打造一个既高效又美观的日常使用与开发环境。不同于常规安装教程&a…

2026/5/28 19:09:21 阅读更多

项目介绍基于java+vue的城市停车需求预测与调度平台设计与实现（含模型描述及部分示例代码）专栏近期有大量优惠还请多多点一下关注加油谢谢你的鼓励是我前行的动力谢谢支持加油谢谢

基于javavue的城市停车需求预测与调度平台设计与实现的详细项目实例请注意此篇内容只是一个项目介绍更多详细内容可直接联系博主本人或者访问对应标题的完整博客或者文档下载页面（含完整的程序，GUI设计和代码详解） 城市停车需求预测与…

2026/5/28 19:09:00 阅读更多

如何高效使用BG3ModManager：博德之门3模组管理终极教程

如何高效使用BG3ModManager：博德之门3模组管理终极教程【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager 你是否在为《博德之门3》的模组管…

2026/5/28 19:08:40 阅读更多

Sora 2多模态协同工作流：文本→动态分镜→音效波形→字幕动效，1套打通AIGC短视频工业化链路

更多请点击： https://codechina.net 第一章：Sora 2多模态协同工作流：文本→动态分镜→音效波形→字幕动效，1套打通AIGC短视频工业化链路 Sora 2并非单一视频生成模型，而是面向工业级短视频生产的多模态协同引擎。其核…

2026/5/28 20:04:11 阅读更多

百度网盘macOS版SVIP功能破解完整指南：告别限速下载

百度网盘macOS版SVIP功能破解完整指南：告别限速下载【免费下载链接】BaiduNetdiskPlugin-macOS For macOS.百度网盘破解SVIP、下载速度限制~ 项目地址: https://gitcode.com/gh_mirrors/ba/BaiduNetdiskPlugin-macOS 你是否曾因百度网盘下载速度过慢而烦恼…

2026/5/28 20:04:11 阅读更多

网盘直链下载助手：免费解锁九大网盘下载限制的终极指南

网盘直链下载助手：免费解锁九大网盘下载限制的终极指南【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼…

2026/5/28 20:03:30 阅读更多

智能化文献管理革命：zotero-style如何重塑科研工作流

智能化文献管理革命：zotero-style如何重塑科研工作流【免费下载链接】zotero-style Ethereal Style for Zotero 项目地址: https://gitcode.com/GitHub_Trending/zo/zotero-style 你是否曾因文献分类混乱而浪费宝贵的研究时间？是否在引用格式标准…

2026/5/28 20:03:30 阅读更多

3分钟搞定微信QQ防撤回：高效保存重要消息的终极方案

3分钟搞定微信QQ防撤回：高效保存重要消息的终极方案【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…

2026/5/28 20:03:09 阅读更多

告别繁琐的APK签名：Uber APK Signer如何让Android应用发布变得更简单

告别繁琐的APK签名：Uber APK Signer如何让Android应用发布变得更简单【免费下载链接】uber-apk-signer A cli tool that helps signing and zip aligning single or multiple Android application packages (APKs) with either debug or provided release certific…

2026/5/28 20:03:09 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/28 17:40:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/28 13:05:45 阅读更多

相关文章