Prometheus Pull 架构选型揭秘：5分钟读懂为什么不选 Push，避免监控丢数据

发布时间：2026/5/28 2:43:04

一个Push模型引发的血案做监控这么多年我栽过最大的跟头就在 Push 模型上。那是去年大促压测的半夜突然飞书、电话全炸了——告警说所有业务实例不可达。冲到电脑前一看好家伙不是业务挂了是中间那台负责接收 Push 数据的代理节点 OOM 了。所有指标“推送”不过去整个监控平台两眼一抹黑你不知道系统是死是活。后来把架构硬切到 Prometheus 的拉模型我至今记得那个凌晨 3 点世界清净了的感觉。今天不扯八股文就用我实打实的翻车经历跟你盘盘为什么 Prometheus 死磕 Pull而不是 Push。拉模型到底怎么玩说白了很简单。Prometheus 自己就是控制中心你告诉它“每隔多久”、“去哪些地方”、“爬什么指标”。到点了它主动发起 HTTP 请求抓取目标/metrics端点拿回来往时序库一写。主动权全在 Prometheus 手里。最小配置长这样你扫一眼就懂# prometheus.yml scrape_configs: - job_name: my-app scrape_interval: 15s # 每15秒拉一次 static_configs: - targets: [localhost:9100, 10.0.1.5:9100]然后./prometheus --config.fileprometheus.yml跑起来就行。它自己会按部就班地去“薅”数据。Push模型的三个致命缺陷很多刚接触监控的同学会觉得“Push 多好啊实时主动上报晚了就晚了呗”。真的我当年也这么天真。直到在生产被反复毒打总结出三点硬伤单点故障是个定时炸弹推模型一定要有个中间网关比如各种消息队列或代理来接收数据不然目标数以万计直接往数据库怼谁都受不了。问题就在这里——这个网关一旦挂掉整个监控就失明。我开头提到的惨案就是网关内存爆了所有推送的指标瞬间变成黑洞。你甚至无法区分是网关挂了还是被监控对象死了。数据准确性和“雪崩”如果一万个微服务同时往一个点推数据稍微来个网络抖动网关那边稍微卡一下就会产生反压。重试那简直是灾难——重试风暴一来网关直接瘫痪。而且推过去的指标时间戳是由客户端决定的时钟漂移能让你聚合出来的曲线歪到外婆家。Prometheus 用拉模型时间戳由自己打全局一致。你根本不知道目标是不是活的Push 模型下只要进程没退它就能盲目地把数据推上来。但如果它已经半死不活hang 住没产生新指标推送的是上次缓存的值你从监控上根本看不出来。Pull 的好处是Prometheus 抓取时能立刻知道目标是否可达抓失败就标记UP0健康检查天然集成在数据采集里。这里必须吐槽一句有些老牌监控系统为了让 Push 模型拥有健康检测能力又单独开发一套探针系统简直就是缝缝补补苦了运维。一张表看清Pull vs Push我根据自己的实战画了张对比表你一看就明白差距在哪里。维度Pull 模型 (Prometheus)Push 模型 (典型老式监控)数据控制权采集端完全掌控想什么时候抓就什么时候抓目标端主动推不受控健康检查抓取失败即标记 DOWN自带探测需要额外探针系统单点风险无中间网关Prometheus 多副本即可依赖推送网关易成瓶颈时间戳一致性采集端统一打戳精度高客户端时钟不同步易混乱动态环境适配结合服务发现自动感知目标上下线需手动或额外机制注册推送地址数据去重与完整性通过 job/instance 标签天然去重同目标推多次容易产生重复指标为什么Pull更对SRE的胃口从 SRE 的视角我最在意三件事稳定性、可观测性、自动化。稳定性没有中间网关Prometheus 自己做自己的事儿挂了也只是部分数据断掉通过联邦或 Thanos 还能高可用不会整个平台瞎。服务发现在 Kubernetes 里更是天然契合。Prometheus 看着 APIServerPod 一启动就被发现一销毁就停止抓取完全不用运维手工加一堆推送地址。我的 K8s 集群 prometheus.yml 里就靠kubernetes_sd_configs通吃一切太香了。安全性Push 模型往往需要开放公网/内网端口给所有被监控端权限飞得到处都是。Pull 模型只由 Prometheus 主动出站请求防火墙规则极简。唯一例外Pushgateway但它是毒药我知道说到这儿肯定有人抬杠“Prometheus 不是也有 Pushgateway 吗怎么就纯拉了”对Pushgateway 确实是推模型的入口。但它被设计出来的唯一正当用途是短生命周期批处理作业。比如跑一个定时清理脚本上来干完活就退出了Prometheus 还没来得及拉它已经死掉。这时候脚本可以把指标推给 Pushgateway 暂存Prometheus 再从 Pushgateway 拉走。但答应我千万别把 Pushgateway 当日常长服务监控的主通道好吗我踩过的大坑团队小伙写了个常驻服务图省事把数据 push 到 Pushgateway。几周后 Pushgateway 内存飙到 8G一看全是这个服务从未清理的历史指标Pushgateway 里的数据除非手动干掉否则会一直堆叠。重启后数据全丢那叫一个酸爽。而且它把你的监控变成了另一个单点——Pushgateway 一炸所有批处理指标全瞎。所以当你非要推时务必加上push_time标签并配合清理策略。但说心里话我个人极度厌恶在生产用 Pushgateway能绕就绕。动手验证拉一个target看看光说不练假把式。你在本地跑个node_exporter然后用下面配置拉它一把。启动 exporter默认端口 9100wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gz tar xvf node_exporter-*.tar.gz ./node_exporter 把之前的prometheus.yml里的 targets 写成本机localhost:9100。启动 Prometheus./prometheus --config.fileprometheus.yml打开http://localhost:9090/targets你会看到my-app下的localhost:9100状态是UP绿得发亮。这就对了。再用 Query 界面搜up{jobmy-app}期望结果返回1。这就证明拉模型正常工作数据已经入库了。常见问题与踩坑记录target 显示 DOWN报connect: connection refused检查 exporter 是不是真起来了端口对不对。我经常犯的错是忘记开防火墙端口还傻看半天配置。抓取超时context deadline exceeded如果目标响应太慢把scrape_timeout调大一点默认10s。但根本办法是优化 exporter别瞎调。标签冲突导致数据错乱多个 target 如果推相同的instance标签Pull 采集端会被覆盖。尤其是动态服务发现时一定要让instance唯一。我在 K8s 里会用__meta_kubernetes_pod_ip拼成 instance稳得很。Pushgateway 指标不消失不是Bug是特性。记得在脚本里用push_time_seconds记录时间然后写个定时任务清理陈旧数据或者干脆别用 Pushgateway。最后叨叨拉模型不是银弹它对短命任务的确认实不友好所以才有了 Pushgateway 这个补丁。但从整体监控系统的健壮性看Prometheus 当年选 Pull真是个明智到骨子里的决定。它把复杂性留给了平台自身把简单和稳定留给了使用者和被监控对象。你用过哪种 Push 架构的监控有没有被网关坑过或者你有更骚的混合方案评论区唠唠呗我泡好枸杞等着你。

TSDuck：免费开源的MPEG传输流框架，多场景适用且多系统可用！

文档与下载TSDuck提供了丰富的文档，包括[用户指南](/docs/tsduck.html)、[开发者指南](/docs/tsduck-dev.html)、[编程参考](/doxy/)等，还有对应的PDF版本。同时，变更日志、演示文稿、项目概述等文档也一应俱全。在下载方面，有[TS…

2026/5/28 2:43:04 阅读更多

实战解析华为WLAN三层漫游—旁挂组网下跨子网业务无感知切换

1. 华为WLAN三层漫游的核心价值想象一下这样的场景：你正拿着平板电脑在办公园区边走边开视频会议，从研发楼走到市场部，网络自动切换但视频通话毫无卡顿——这就是三层漫游技术的魅力。在传统网络中，跨子网移动会导致IP地址变更和…

2026/5/28 2:43:04 阅读更多

CPU上LLM服务优化：Sandwich架构解决预填充与解码阶段挑战

1. CPU上LLM服务优化的核心挑战在CPU上部署大型语言模型(LLM)服务面临两个关键阶段的资源需求冲突：预填充(prefill)阶段和解码(decode)阶段。预填充阶段需要处理变长输入，属于计算密集型任务；而解码阶段则受限于内存带宽和缓存争用&#xff0…

2026/5/28 2:42:23 阅读更多

Go语言context源码：上下文传递深度解析

Go语言context源码：上下文传递深度解析一、引言：为什么需要context 在Go语言的并发编程中，我们经常需要处理超时控制、取消信号和请求作用域的数据传递。context包正是为解决这些问题而生的。想象一个典型的Web请求处理场景： 客户…

2026/5/28 3:33:33 阅读更多

北光恒电：安捷伦8494A步进可调衰减器衰减量异常故障排查

安捷伦8494A步进可调衰减器是射频测试中非常常用的精密无源器件，凭借稳定的衰减精度、耐用的机械结构和优秀的频域特性，广泛应用于信号调试、系统校准、射频链路测试等场景。设备长期反复调节、频繁拆装或使用环境较差时，很容易出现衰减量异常…

2026/5/28 3:33:13 阅读更多

LMAR框架：大语言模型增强的语义检索技术解析

1. LMAR框架核心设计解析在信息检索领域，文本嵌入模型的质量直接影响着语义搜索的效果。传统方法通常面临两个关键瓶颈：一是预训练模型在新领域的知识迁移不足，二是标准文本分块策略难以保持专业内容的语义连贯性。LMAR（LLM-guide…

2026/5/28 3:31:32 阅读更多

Unity游戏开发：用Dotween控制动画暂停、倒放，实现角色呼吸灯效果（附完整代码）

Unity游戏开发实战：用Dotween打造丝滑的角色呼吸灯交互系统在独立游戏开发中，角色选中状态的可视化反馈往往决定了玩家的第一印象。想象一下：当玩家将鼠标悬停在角色上时，角色周身缓缓亮起柔和的呼吸光效；选中时保持稳…

2026/5/28 3:31:12 阅读更多

Cell-Free Massive MIMO硬件损伤分析与优化策略

1. Cell-Free Massive MIMO中的硬件损伤挑战在6G通信系统中，Cell-Free Massive MIMO（无蜂窝大规模多输入多输出）技术因其卓越的频谱效率和能量效率而备受关注。与传统的蜂窝架构不同，这种分布式天线系统通过密集部署低成本接入点&…

2026/5/28 3:30:11 阅读更多

在Ubuntu 20.04上踩坑记：Bochs 2.6.9编译GeekOS 0.3.0，我遇到的5个报错及解决方法

在Ubuntu 20.04上踩坑记：Bochs 2.6.9编译GeekOS 0.3.0，我遇到的5个报错及解决方法第一次尝试在Ubuntu 20.04上编译GeekOS 0.3.0时，我以为这会是一个简单的过程——毕竟网上有那么多教程。但现实给了我当头一棒，从依赖安装到Bochs配…

2026/5/28 3:29:31 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章