Prometheus+Grafana监控实战

发布时间：2026/5/17 4:07:42

PrometheusGrafana监控实战引言在微服务架构中监控系统是保障系统稳定性和可靠性的关键基础设施。Prometheus是CNCF毕业的开源监控系统以其强大的多维度数据模型、高效的查询语言PromQL和灵活的架构设计成为云原生监控的事实标准。Grafana则是最流行的可视化平台可以连接多种数据源创建丰富的仪表板。本文将详细介绍Prometheus和Grafana的部署配置、在Spring Boot应用中的集成方法以及构建完整监控体系的最佳实践。一、Prometheus核心概念1.1 数据模型Prometheus采用时序数据库存储数据每条时序数据由指标名称、标签集和时间戳组成。标签允许对指标进行多维度切分PromQL可以基于这些标签进行灵活查询。# 指标格式 metric_name{label1value1, label2value2} value timestamp # 示例 http_requests_total{methodGET, status200, handler/api/users} 1523 1704067200 process_cpu_seconds_total{instanceorder-service:8080} 4523.56 17040672001.2 四种指标类型Counter是只增不减的计数器用于统计请求数、错误数等Gauge是可增可减的仪表盘用于记录当前连接数、内存使用量等Histogram用于记录观察值的分布自动计算分位数Summary与Histogram类似但由客户端计算分位数。// Spring Boot Micrometer中的指标定义 Configuration public class MetricsConfig { Bean public Counter orderCreatedCounter(MeterRegistry registry) { return Counter.builder(orders.created) .description(Number of orders created) .tag(type, online) .register(registry); } Bean public Gauge activeConnectionsGauge(MeterRegistry registry) { return Gauge.builder(connections.active, connectionPool, ConnectionPool::getActiveCount) .description(Number of active connections) .register(registry); } Bean public Timer orderProcessingTimer(MeterRegistry registry) { return Timer.builder(order.processing.duration) .description(Time taken to process orders) .publishPercentiles(0.5, 0.95, 0.99) .register(registry); } Bean public DistributionSummary orderAmountSummary(MeterRegistry registry) { return DistributionSummary.builder(order.amount) .description(Order amount distribution) .publishPercentiles(0.5, 0.95, 0.99) .register(registry); } }二、Prometheus部署配置2.1 Kubernetes部署# prometheus-configmap.yaml apiVersion: v1 kind: ConfigMap metadata: name: prometheus-config namespace: monitoring data: prometheus.yml: | global: scrape_interval: 15s evaluation_interval: 15s external_labels: cluster: production environment: kubernetes alerting: alertmanagers: - static_configs: - targets: - alertmanager.monitoring.svc:9093 rule_files: - /etc/prometheus/rules/*.yml scrape_configs: # Prometheus自我监控 - job_name: prometheus static_configs: - targets: [localhost:9090] # Kubernetes API Server - job_name: kubernetes-apiservers kubernetes_sd_configs: - role: endpoints scheme: https tls_config: ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token relabel_configs: - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name] action: keep regex: default;kubernetes;https # Kubernetes Pods - job_name: kubernetes-pods kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape] action: keep regex: true - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path] action: replace target_label: __metrics_path__ regex: (.) - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port] action: replace regex: ([^:])(?::\d)?;(\d) replacement: $1:$2 target_label: __address__ - action: labelmap regex: __meta_kubernetes_pod_label_(.)2.2 Prometheus Operator# Prometheus CRD apiVersion: monitoring.coreos.com/v1 kind: Prometheus metadata: name: prometheus namespace: monitoring spec: replicas: 2 retention: 15d retentionSize: 50GB serviceAccountName: prometheus serviceMonitorSelector: matchLabels: team: frontend ruleSelector: matchLabels: role: alert-rules alerting: alertmanagers: - namespace: monitoring name: alertmanager-main port: web resources: requests: memory: 2Gi cpu: 1000m limits: memory: 8Gi cpu: 4000m storage: volumeClaimTemplate: spec: storageClassName: ssd resources: requests: storage: 100Gi三、Spring Boot应用集成3.1 引入依赖dependencies !-- Actuator暴露健康指标 -- dependency groupIdorg.springframework.boot/groupId artifactIdspring-boot-starter-actuator/artifactId /dependency !-- Micrometer Prometheus注册器 -- dependency groupIdio.micrometer/groupId artifactIdmicrometer-registry-prometheus/artifactId /dependency !-- JVM和系统指标 -- dependency groupIdio.micrometer/groupId artifactIdmicrometer-core/artifactId /dependency /dependencies3.2 配置文件management: endpoints: web: exposure: include: health,info,prometheus,metrics,logfile base-path: /actuator endpoint: health: show-details: always probes: enabled: true prometheus: enabled: true metrics: export: prometheus: enabled: true distribution: percentiles-histogram: http.server.requests: true percentiles: http.server.requests: 0.5, 0.95, 0.99 slo: http.server.requests: 50ms, 100ms, 200ms, 500ms, 1s tags: application: ${spring.application.name} environment: ${ENV:development}3.3 自定义业务指标Service public class OrderMetricsService { private final Counter orderSuccessCounter; private final Counter orderFailedCounter; private final Timer orderProcessingTimer; private final Gauge activeOrdersGauge; private final AtomicInteger activeOrders; public OrderMetricsService(MeterRegistry registry) { this.orderSuccessCounter Counter.builder(orders.success) .description(Successful order count) .tag(type, online) .register(registry); this.orderFailedCounter Counter.builder(orders.failed) .description(Failed order count) .tag(type, online) .register(registry); this.orderProcessingTimer Timer.builder(orders.processing.time) .description(Order processing duration) .publishPercentiles(0.5, 0.95, 0.99) .register(registry); this.activeOrders new AtomicInteger(0); this.activeOrdersGauge Gauge.builder(orders.active, activeOrders, AtomicInteger::get) .description(Active orders count) .register(registry); } public void recordOrderSuccess(Order order) { orderSuccessCounter.increment(); orderProcessingTimer.record(order.getProcessingTime(), TimeUnit.MILLISECONDS); } public void recordOrderFailed(Order order, Throwable error) { orderFailedCounter.increment(); Tags tags Tags.of(error, error.getClass().getSimpleName()); Counter.builder(orders.failed.detailed) .tags(tags) .register(Registry.class.cast(orderSuccessCounter.getId())) .increment(); } public void incrementActiveOrders() { activeOrders.incrementAndGet(); } public void decrementActiveOrders() { activeOrders.decrementAndGet(); } }3.4 ServiceMonitor配置apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: order-service-monitor namespace: monitoring labels: team: frontend spec: selector: matchLabels: app: order-service namespaceSelector: matchNames: - production endpoints: - port: web path: /actuator/prometheus interval: 15s scrapeTimeout: 10s relabelings: - sourceLabels: [__meta_kubernetes_pod_name] targetLabel: pod - sourceLabels: [__meta_kubernetes_namespace] targetLabel: namespace jobLabel: order-service四、AlertManager告警配置4.1 告警规则apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: order-service-alerts namespace: production labels: role: alert-rules spec: groups: - name: order-service.rules rules: - alert: HighErrorRate expr: | sum(rate(orders_failed_total[5m])) / sum(rate(orders_success_total[5m])) 0.05 for: 5m labels: severity: critical team: backend annotations: summary: High error rate detected description: Order service error rate is above 5% for 5 minutes - alert: HighLatency expr: | histogram_quantile(0.95, sum(rate(orders_processing_time_seconds_bucket[5m])) by (le)) 2 for: 5m labels: severity: warning annotations: summary: High order processing latency description: 95th percentile latency is above 2 seconds - alert: InstanceDown expr: up{joborder-service} 0 for: 1m labels: severity: critical annotations: summary: Instance down description: Order service instance is down - alert: HighMemoryUsage expr: | (jvm_memory_used_bytes{areaheap} / jvm_memory_max_bytes{areaheap}) 0.9 for: 5m labels: severity: warning annotations: summary: High JVM memory usage description: JVM heap usage is above 90%4.2 AlertManager配置apiVersion: monitoring.coreos.com/v1 kind: Alertmanager metadata: name: alertmanager-main namespace: monitoring spec: replicas: 2 config: route: group_by: [alertname, severity] group_wait: 30s group_interval: 5m repeat_interval: 12h receiver: default-receiver routes: - match: severity: critical receiver: critical-receiver continue: true - match: team: backend receiver: backend-team receivers: - name: default-receiver webhook_configs: - url: http://notification-service:8080/webhook send_resolved: true - name: critical-receiver pagerduty_configs: - service_key: YOUR_PAGERDUTY_KEY severity: critical - name: backend-team email_configs: - to: backend-teamexample.com send_resolved: true五、Grafana仪表板5.1 数据源配置apiVersion: v1 kind: ConfigMap metadata: name: grafana-datasources namespace: monitoring data: prometheus.yaml: | apiVersion: 1 datasources: - name: Prometheus type: prometheus access: proxy url: http://prometheus:9090 isDefault: true editable: true jsonData: timeInterval: 15s queryTimeout: 60s5.2 JVM监控仪表板{ dashboard: { title: JVM Performance Dashboard, panels: [ { title: JVM Memory Usage, type: timeseries, gridPos: {x: 0, y: 0, w: 12, h: 8}, targets: [ { expr: jvm_memory_used_bytes{area\heap\}, legendFormat: {{id}} - {{application}} } ], fieldConfig: { defaults: { unit: bytes, custom: { drawStyle: line, lineWidth: 2 } } } }, { title: GC Metrics, type: timeseries, gridPos: {x: 12, y: 0, w: 12, h: 8}, targets: [ { expr: rate(jvm_gc_pause_seconds_sum[5m]), legendFormat: {{action}} - {{cause}} } ] }, { title: Thread Count, type: stat, gridPos: {x: 0, y: 8, w: 6, h: 4}, targets: [ { expr: jvm_threads_live_threads{application\order-service\} } ] }, { title: HTTP Request Rate, type: timeseries, gridPos: {x: 6, y: 8, w: 18, h: 8}, targets: [ { expr: sum(rate(http_server_requests_seconds_count[5m])) by (uri, status), legendFormat: {{uri}} - {{status}} } ] } ] } }六、告警通知集成6.1 钉钉告警apiVersion: v1 kind: Secret metadata: name: dingtalk-webhook namespace: monitoring type: Opaque stringData: url: https://oapi.dingtalk.com/robot/send?access_tokenYOUR_TOKEN --- apiVersion: monitoring.coreos.com/v1 kind: AlertmanagerConfig metadata: name: dingtalk-config namespace: monitoring spec: receivers: - name: dingtalk dingtalkConfigs: - webhook: url: key: url name: dingtalk-webhook msgType: markdown atAll: false route: groupBy: [alertname] receiver: dingtalk6.2 企业微信告警apiVersion: monitoring.coreos.com/v1 kind: AlertmanagerConfig metadata: name: wechat-config namespace: monitoring spec: receivers: - name: wechat wechatConfigs: - apiURL: url: https://qyapi.weixin.qq.com/cgi-bin/ corpID: YOUR_CORP_ID agentID: 1000001 apiSecret: name: wechat-api-secret key: secret toParty: 1 toUser: all七、最佳实践7.1 指标命名规范指标名称应遵循以下规范使用小写字母和下划线包含功能域前缀包含度量单位后缀包含描述性的复数名词。# 推荐命名 order_processing_duration_seconds user_login_total cache_hit_ratio # 不推荐命名 OrderProcessingTime /User/Login/Count CacheHitRate7.2 标签使用建议避免使用高基数标签如用户ID、请求ID等标签值应该有限且稳定避免标签数量过多使用role、instance、job等标准标签。7.3 性能优化# Prometheus远程写入配置 remote_write: - url: https://remote-write-endpoint/api/v1/write queue_config: capacity: 10000 max_shards: 30 min_shards: 1 max_samples_per_send: 5000 batch_send_deadline: 30s总结Prometheus和Grafana的组合提供了完整的云原生监控解决方案。Prometheus负责指标的采集、存储和告警Grafana负责数据的可视化和分析。通过在Spring Boot应用中集成Micrometer可以轻松暴露丰富的业务指标和JVM指标。结合AlertManager和各类通知渠道可以实现及时的问题告警。建立完善的监控体系是保障系统稳定性的基础也是SRE实践的重要组成部分。

ARM Debug Interface v5.1架构解析与调试实践

1. ARM Debug Interface v5.1架构深度解析1.1 调试接口技术演进与核心价值ARM调试接口(ADI)技术历经多次迭代，v5.1版本作为当前主流标准，在嵌入式系统调试领域确立了关键地位。调试接口本质上是处理器核与外部调试工具之间的标准化通信桥梁，其…

2026/5/17 4:07:01 阅读更多

代码可视化解释器：用动态动画让算法和数据结构一目了然

1. 项目概述：一个让代码“开口说话”的可视化解释器最近在GitHub上看到一个挺有意思的项目，叫nicobailon/visual-explainer。光看名字，你可能会觉得这又是一个平平无奇的图表生成工具。但如果你是一名开发者，或者经常需要向别人解…

2026/5/17 4:06:41 阅读更多

基于Arduino与加速度计的智能骑行背包刹车灯系统设计与实现

1. 项目概述与核心思路几年前，一个玩摩托的朋友跟我抱怨，说晚上骑车总觉得后车离得太近，原厂刹车灯不够显眼，尤其是穿深色骑行服或者背个黑包的时候，存在不小的安全隐患。他半开玩笑地问我：“你不是老鼓捣那…

2026/5/17 4:06:21 阅读更多

Arm Neoverse CMN-700多芯片架构与一致性哈希解析

1. Arm Neoverse CMN-700多芯片架构解析在现代高性能计算领域，多芯片系统架构已成为突破单芯片性能瓶颈的关键技术路径。Arm Neoverse CMN-700作为第二代一致性网状网络控制器，其设计哲学体现在三个维度：首先是通过模块化设计实现计算单元的可…

2026/5/17 4:57:21 阅读更多

别再只懂JPEG了！深入聊聊SVD图像压缩的优缺点与适用场景（Python实战分析）

超越JPEG：SVD图像压缩的技术深潜与Python实战指南当我们在社交媒体上传照片时，系统会自动将图片压缩成更小的文件——这背后通常是JPEG算法在发挥作用。但JPEG只是图像压缩世界的冰山一角。奇异值分解（SVD）作为一种基于线性代数的…

2026/5/17 4:56:20 阅读更多

保姆级教程：在Ubuntu 22.04上用ROS2 Humble和MoveIt2玩转Panda机械臂（RViz可视化篇）

保姆级教程：在Ubuntu 22.04上用ROS2 Humble和MoveIt2玩转Panda机械臂（RViz可视化篇） 刚接触ROS2和机械臂控制时，最让人头疼的莫过于环境配置和基础操作。本文将以Franka Emika的Panda机械臂为例，带你从零开始搭建开发环…

2026/5/17 4:55:00 阅读更多

hoomanity项目解析：构建人性化AI交互的情感智能框架

1. 项目概述与核心价值最近在GitHub上闲逛，发现了一个挺有意思的项目，叫“hoomanity”。这名字一看就有点意思，结合了“Humanity”（人性）和“Hoo”（可能是拟声词，或者指代“Who”）&…

2026/5/17 4:54:20 阅读更多

Arm MMU架构解析与实战配置指南

1. Arm MMU架构概述内存管理单元（MMU）是现代处理器中负责虚拟地址到物理地址转换的核心组件。在Arm架构中，MMU通过多级页表机制和TLB（Translation Lookaside Buffer）缓存实现高效的内存访问控制。MMU_400、MMU_500和MM…

2026/5/17 4:54:20 阅读更多

Arm Neoverse CMN-700互连架构与寄存器编程详解

1. Arm Neoverse CMN-700架构概览在现代高性能计算系统中，处理器核心数量的快速增长对互连架构提出了严峻挑战。作为Arm Neoverse平台的核心组件，CMN-700一致性互连网络采用创新的Mesh拓扑结构，解决了多核处理器间的通信瓶颈问题。我在实际芯…

2026/5/17 4:53:39 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/17 0:01:09 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/17 0:01:09 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/17 0:02:11 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

2026/5/17 0:01:09 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/17 0:01:09 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

2026/5/17 0:02:11 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/16 21:19:19 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/16 19:35:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/16 17:57:38 阅读更多

相关文章

ARM Debug Interface v5.1架构解析与调试实践

代码可视化解释器：用动态动画让算法和数据结构一目了然

基于Arduino与加速度计的智能骑行背包刹车灯系统设计与实现

Arm Neoverse CMN-700多芯片架构与一致性哈希解析

别再只懂JPEG了！深入聊聊SVD图像压缩的优缺点与适用场景（Python实战分析）

保姆级教程：在Ubuntu 22.04上用ROS2 Humble和MoveIt2玩转Panda机械臂（RViz可视化篇）

hoomanity项目解析：构建人性化AI交互的情感智能框架

Arm MMU架构解析与实战配置指南

Arm Neoverse CMN-700互连架构与寄存器编程详解

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)