Prometheus 多集群联邦与 Thanos 长期存储：从单集群到全局监控

发布时间：2026/6/12 5:08:04

Prometheus 多集群联邦与 Thanos 长期存储从单集群到全局监控一、监控数据的孤岛困境多集群环境下的全局视角缺失企业级 Kubernetes 环境通常包含多个集群开发、测试、生产、不同地域每个集群部署独立的 Prometheus 实例采集指标。这种架构导致三个核心问题一是全局视角缺失无法在一个面板上查看所有集群的资源使用和告警状态二是数据短期化Prometheus 默认保留 15 天数据历史数据查询需要逐个集群翻找三是存储成本高每个集群独立存储监控数据无法集中管理和压缩。Prometheus 联邦Federation和 Thanos 是解决多集群监控的两个互补方案联邦实现跨集群数据聚合Thanos 实现长期存储和全局查询。二、多集群监控的架构设计flowchart TD A[集群 A Prometheus] -- B[Thanos Sidecar] C[集群 B Prometheus] -- D[Thanos Sidecar] E[集群 C Prometheus] -- F[Thanos Sidecar] B -- G[对象存储 S3/OSS] D -- G F -- G B -- H[Thanos Query] D -- H F -- H H -- I[Grafana 全局面板] G -- H subgraph 联邦模式 J[中心 Prometheus] -- K[集群 A /federation] J -- L[集群 B /federation] end联邦模式适合轻量级场景中心 Prometheus 从各集群的 /federation 端点拉取关键指标。Thanos 模式适合大规模场景各集群的 Sidecar 将数据上传到对象存储Thanos Query 提供全局查询接口支持跨集群和跨时间范围的数据查询。三、工程化实现3.1 Prometheus 联邦配置# 中心 Prometheus从各集群拉取联邦数据 # central-prometheus.yaml global: scrape_interval: 15s scrape_configs: # 从集群 A 拉取联邦数据 - job_name: federation-cluster-a scrape_interval: 30s honor_labels: true metrics_path: /federate params: match[]: # 只拉取关键指标避免数据量过大 - {jobkubernetes-nodes} - {jobkubernetes-pods} - {__name__~up$} - {__name__~container_cpu_usage_seconds_total} - {__name__~container_memory_working_set_bytes} static_configs: - targets: - prometheus-cluster-a:9090 labels: cluster: cluster-a # 从集群 B 拉取联邦数据 - job_name: federation-cluster-b scrape_interval: 30s honor_labels: true metrics_path: /federate params: match[]: - {jobkubernetes-nodes} - {jobkubernetes-pods} - {__name__~up$} - {__name__~container_cpu_usage_seconds_total} - {__name__~container_memory_working_set_bytes} static_configs: - targets: - prometheus-cluster-b:9090 labels: cluster: cluster-b3.2 Thanos 部署配置# Thanos Sidecar与 Prometheus 共存上传数据到对象存储 apiVersion: apps/v1 kind: StatefulSet metadata: name: prometheus spec: template: spec: containers: - name: prometheus image: prom/prometheus:v2.50.0 args: - --config.file/etc/prometheus/prometheus.yml - --storage.tsdb.path/prometheus - --storage.tsdb.retention.time2d # 本地只保留 2 天 - --web.enable-remote-write-receiver ports: - containerPort: 9090 - name: thanos-sidecar image: thanosio/thanos:v0.34.0 args: - sidecar - --tsdb.path/prometheus - --prometheus.urlhttp://localhost:9090 - --objstore.config-file/etc/thanos/objstore.yml - --shipper.upload-compactedtrue # 上传已压缩数据 volumeMounts: - name: prometheus-data mountPath: /prometheus - name: thanos-config mountPath: /etc/thanos --- # 对象存储配置 apiVersion: v1 kind: Secret metadata: name: thanos-objstore-config type: Opaque stringData: objstore.yml: | type: s3 config: bucket: thanos-storage endpoint: s3.amazonaws.com access_key: ${AWS_ACCESS_KEY} secret_key: ${AWS_SECRET_KEY}3.3 Thanos Query 全局查询# Thanos Query全局查询入口 apiVersion: apps/v1 kind: Deployment metadata: name: thanos-query spec: template: spec: containers: - name: thanos-query image: thanosio/thanos:v0.34.0 args: - query - --http-address0.0.0.0:19192 - --query.replica-labelreplica # 连接各集群的 Sidecar实时数据 - --storethanos-sidecar-cluster-a:10901 - --storethanos-sidecar-cluster-b:10901 # 连接对象存储历史数据 - --storethanos-store-gateway:10901 ports: - containerPort: 19192 --- # Thanos Store Gateway从对象存储读取历史数据 apiVersion: apps/v1 kind: Deployment metadata: name: thanos-store-gateway spec: template: spec: containers: - name: thanos-store image: thanosio/thanos:v0.34.0 args: - store - --data-dir/data - --objstore.config-file/etc/thanos/objstore.yml - --index-cache.config-file/etc/thanos/index-cache.yml3.4 全局告警规则# 全局告警规则跨集群统一管理 apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: global-alerts spec: groups: - name: multi-cluster rules: # 集群节点不可用 - alert: ClusterNodeDown expr: up{jobkubernetes-nodes} 0 for: 5m labels: severity: critical annotations: summary: 集群 {{ $labels.cluster }} 节点 {{ $labels.instance }} 不可用 # 跨集群资源使用率告警 - alert: HighClusterCPUUsage expr: | avg by (cluster) ( rate(container_cpu_usage_seconds_total{container!}[5m]) ) 0.8 for: 10m labels: severity: warning annotations: summary: 集群 {{ $labels.cluster }} 平均 CPU 使用率超过 80%四、多集群监控的 Trade-offs联邦 vs Thanos 的选择联邦模式简单轻量但只能拉取当前数据无法查询历史且拉取所有指标会导致中心 Prometheus 存储爆炸。Thanos 功能完整支持长期存储和全局查询但架构复杂需要对象存储和多个 Thanos 组件。建议小规模 5 集群用联邦大规模用 Thanos。对象存储的成本Thanos 将监控数据上传到 S3/OSS长期存储成本约 $0.023/GB/月。一个 50 集群、每集群 100 万 series 的环境月存储成本约 $500-1000。建议配置数据降采样Thanos Compactor原始数据保留 30 天5 分钟降采样保留 1 年1 小时降采样永久保留。查询性能跨集群查询需要 Thanos Query 从多个 Store Gateway 获取数据并合并查询延迟可能达到数秒。建议在 Grafana 中设置查询超时并对大范围时间查询使用降采样数据。网络连通性联邦和 Thanos 都需要跨集群网络连通。如果集群在不同 VPC 或云厂商需要配置 VPN 或专线。建议使用 Thanos Receive 模式让各集群主动推送数据到中心避免跨集群拉取的网络依赖。五、总结多集群监控从单集群孤岛走向全局视角联邦和 Thanos 是两种互补的方案。落地路线上建议先用联邦实现跨集群关键指标聚合再引入 Thanos 实现长期存储和全局查询。关键原则联邦只拉取关键指标Thanos 必须配置降采样查询性能需要优化网络连通性是基础设施前提。

多维聚合后数据操作：窗口函数、空维补全与动态分组实战

1. 项目概述：为什么多维聚合中的数据操作不是“加个GROUP BY”就完事了 “Part 20: Data Manipulation in Multi-Dimensional Aggregation”这个标题乍看像教科书里一个平平无奇的章节编号，但如果你正在处理销售漏斗分析、用户行为路径归因、IoT设备时序…

2026/6/12 5:07:04 阅读更多

从经济学‘影子价格’到编译器优化：线性规划对偶理论的两个硬核应用实例

从经济学‘影子价格’到编译器优化：线性规划对偶理论的两个硬核应用实例在运筹学和优化理论中，线性规划的对偶理论常被视为纯粹的数学工具，但它的实际应用价值远超课本上的公式推导。本文将揭示这一理论如何跨越学科边界，在资源定…

2026/6/12 5:07:04 阅读更多

办公服务一体化：HR/财务/法务智能体与企业知识库联动实践

企业内部办公体系中，HR、财务、法务是支撑组织正常运转的三大核心职能岗位，覆盖人事管理、费用管控、合规风控等关键工作。多数中大型企业日常运营中，员工针对考勤报销、入职离职、制度规范、合同审核、费用标准的咨询量巨大，长期…

2026/6/12 5:07:03 阅读更多

2026 Facebook流量转化专家/机构客观测评榜单｜出海企业选型指南

一、测评引言：Meta生态流量转化行业现状与测评说明1.1 行业市场现状与发展趋势根据Meta官方发布《2026大中华区出海营销白皮书》，2025年中国大陆企业Facebook/Meta广告投放规模突破420亿美元，同比增长27.3%，但行业平均全链路转化效…

2026/6/12 6:43:03 阅读更多

如何在10分钟内搭建家庭游戏串流服务器：Sunshine完整部署指南

如何在10分钟内搭建家庭游戏串流服务器：Sunshine完整部署指南【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 想要在任何设备上流畅玩PC游戏，又不想购买昂贵…

2026/6/12 6:43:03 阅读更多

自指螺旋拓扑框架：强子谱的完整拓扑推导（世毫九实验室原创研究）

自指螺旋拓扑框架：强子谱的完整拓扑推导（世毫九实验室原创研究） 作者：方见华单位：世毫九实验室本文严格延续三色三周期自指螺旋的理论体系，将所有强子诠释为夸克自指螺旋的不同拓扑缠绕组态。推导过程零自…

2026/6/12 6:43:03 阅读更多

别再只写getter/setter了！用Q_PROPERTY让你的Qt对象属性管理更优雅（附完整代码示例）

用Q_PROPERTY重构你的Qt属性系统：告别低效的getter/setter时代在Qt开发中，你是否还在为每个类属性手动编写重复的getter和setter函数？当项目规模扩大时，这种传统做法不仅让代码变得臃肿，还增加了维护成本。本文将带你探…

2026/6/12 6:42:02 阅读更多

别再硬算10^9了！用C++离散化搞定‘区间和’问题，保姆级代码拆解

离散化算法实战：用C高效解决区间和问题在算法竞赛和面试中，我们经常会遇到处理超大值域但数据稀疏的问题。想象一下，你需要处理分布在1到10^9范围内的数据点，但实际只有10^5个有效数据——直接开数组存储显然不现实。这就是离散化…

2026/6/12 6:41:42 阅读更多

自主学习：让AI Agent持续进化的关键

自主学习：让AI Agent持续进化的关键摘要/引言你有没有想象过这样的场景：你的AI助手原本只会帮你订机票、查天气，但某天你随口提了一句“整理下上个月我关于XX项目的所有线上线下资料，包括会议录音转写的摘要（重点是老板提出的三个迭代方向）、GitHub提交记录里的bug修…

2026/6/12 6:41:02 阅读更多

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/Gi…

2026/6/12 0:02:19 阅读更多

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南【免费下载链接】kubeedge Kubernetes Native Edge Computing Framework (project under CNCF) 项目地址: https://gitcode.com/GitHub_Trending/ku/kubeedge 在数字化转型浪潮中，边缘计算正成…

2026/6/12 0:02:19 阅读更多

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.…

2026/6/12 0:02:40 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/11 9:57:14 阅读更多

相关文章

多维聚合后数据操作：窗口函数、空维补全与动态分组实战

从经济学‘影子价格’到编译器优化：线性规划对偶理论的两个硬核应用实例

办公服务一体化：HR/财务/法务智能体与企业知识库联动实践

2026 Facebook流量转化专家/机构客观测评榜单｜出海企业选型指南

如何在10分钟内搭建家庭游戏串流服务器：Sunshine完整部署指南

自指螺旋拓扑框架：强子谱的完整拓扑推导（世毫九实验室原创研究）

别再只写getter/setter了！用Q_PROPERTY让你的Qt对象属性管理更优雅（附完整代码示例）

别再硬算10^9了！用C++离散化搞定‘区间和’问题，保姆级代码拆解

自主学习：让AI Agent持续进化的关键

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因