宕机之后十分钟自动出报告：大语言模型驱动的服务宕机根因分析报告自动生成

发布时间：2026/6/3 1:05:49

宕机之后十分钟自动出报告大语言模型驱动的服务宕机根因分析报告自动生成凌晨2点15分告警系统跳出红色弹窗订单服务不可用。三分钟后我还在揉眼睛的时候钉钉群里已经收到了一份《订单服务宕机根因分析报告初稿》。从告警触发到报告生成不到10分钟。这不是科幻片这是我们基于大语言模型LLM搭建的根因分析报告自动生成系统。一、为什么需要自动生成根因分析报告传统故障复盘的低效每次线上故障后的复盘流程01:00 告警触发开始排查 01:30 初步定位开始止血 02:00 恢复服务 02:30 开始写复盘报告 03:30 报告写完漏了一半细节 04:00 拉群讨论补充信息 ... 三天后报告终于归档但没人再看这个流程的问题时效性差复盘报告通常是事后补的关键细节已经遗忘质量不一取决于值班工程师的记忆力和文档水平缺乏标准化有的报告详细有的报告就两行字知识沉淀难上次怎么修的这次又得重新排查自动报告的目标我们给自动报告系统定了三个目标快告警后10分钟内输出初稿准以监控数据和日志为事实依据全涵盖故障发现、影响范围、根因分析、修复措施全流程二、系统架构设计[告警事件] → 事件感知器 ↓ [数据收集层] → 时序数据采集 → API Server 日志采集 → ELK Client 变更记录 → CMDB Client 链路追踪 → Jaeger Client ↓ [分析层] → 时序异常检测日志关键信息提取变更关联分析 ↓ [LLM层] → 上下文组装器 → 大模型API → 报告生成器 ↓ [输出层] → 钉钉/企微推送 Confluence自动归档复盘会议邀请自动发送三、核心实现事件感知与上下文收集# incident_collector.py — 故障上下文收集器 import asyncio from datetime import datetime, timedelta import aiohttp import json class IncidentContextCollector: 收集故障上下文信息 def __init__(self, config: dict): self.prometheus_url config[prometheus_url] self.es_url config[elasticsearch_url] self.cmdb_url config[cmdb_url] async def collect_all(self, alert_event: dict) - dict: 并发收集所有上下文数据 start_time datetime.fromisoformat(alert_event[start_time]) window_start start_time - timedelta(minutes30) window_end start_time timedelta(minutes5) # 并发执行所有数据收集 tasks [ self.collect_metrics(alert_event, window_start, window_end), self.collect_logs(alert_event, window_start, window_end), self.collect_changes(alert_event, window_start, window_end), self.collect_traces(alert_event, window_start, window_end) ] results await asyncio.gather(*tasks) return { alert: alert_event, metrics: results[0], logs: results[1], changes: results[2], traces: results[3], collected_at: datetime.now().isoformat() } async def collect_metrics(self, alert, start, end): 采集异常时段前后的时序指标 queries { cpu: sum(rate(container_cpu_usage_seconds_total{namespaceprod}[1m])) by (pod), memory: sum(container_memory_working_set_bytes{namespaceprod}) by (pod), latency: histogram_quantile(0.99, rate(http_request_duration_seconds_bucket{serviceorder}[5m])), error_rate: sum(rate(http_requests_total{serviceorder, status~5..}[5m])) / sum(rate(http_requests_total{serviceorder}[5m])) } results {} async with aiohttp.ClientSession() as session: for name, query in queries.items(): params { query: query, start: start.timestamp(), end: end.timestamp(), step: 15 } async with session.get(f{self.prometheus_url}/api/v1/query_range, paramsparams) as resp: data await resp.json() results[name] data[data][result] return results async def collect_logs(self, alert, start, end): 采集异常时段的错误日志 logs_query { query: { bool: { must: [ {match: {service: order}}, {match: {level: ERROR}} ], filter: [ {range: {timestamp: { gte: start.isoformat(), lte: end.isoformat() }}} ] } }, size: 50, sort: [{timestamp: desc}] } async with aiohttp.ClientSession() as session: async with session.post( f{self.es_url}/order-logs-*/_search, jsonlogs_query ) as resp: result await resp.json() return [ {timestamp: hit[_source][timestamp], message: hit[_source][message]} for hit in result[hits][hits] ]LLM报告生成引擎# report_generator.py — 报告生成引擎 import json from openai import AsyncOpenAI class IncidentReportGenerator: 基于LLM生成根因分析报告 def __init__(self, api_key: str, model: str qwen2-72b): self.client AsyncOpenAI( api_keyapi_key, base_urlhttp://llm-service:8000/v1 ) self.model model def build_report_prompt(self, context: dict) - str: 构建结构化报告提示词 return f你是一位资深的SRE故障复盘专家请根据以下故障数据生成根因分析报告。 ## 故障基本信息 - 告警名称{context[alert][name]} - 告警时间{context[alert][start_time]} - 告警级别{context[alert][severity]} - 影响服务{context[alert][service]} - 告警状态{context[alert][status]} ## 时序指标异常故障时间窗口内 {json.dumps(context[metrics], indent2, ensure_asciiFalse)[:2000]} ## 异常日志摘要Top 20 {json.dumps(context[logs][:20], indent2, ensure_asciiFalse)} ## 最近变更记录故障前1小时内 {json.dumps(context[changes], indent2, ensure_asciiFalse)} ## 链路追踪异常 {json.dumps(context[traces][:5], indent2, ensure_asciiFalse)} 请严格按照以下Markdown格式输出报告不要添加额外内容 # 故障根因分析报告 ## 一、故障概览 - 故障编号INC-{context[alert][id]} - 发生时间{context[alert][start_time]} - 恢复时间[根据数据推断] - 故障时长[推断] - 影响范围[分析SLA影响] - 严重级别P0/P1/P2 ## 二、故障时间线 | 时间 | 事件 | 数据来源 | |------|------|---------| | ... | ... | ... | ## 三、根因分析 ### 3.1 直接原因 [基于日志和指标的直接原因] ### 3.2 根本原因 [深入分析包含变更关联] ### 3.3 触发条件 [触发故障的完整条件链] ## 四、影响评估 - 受影响请求数[数据驱动] - 平均恢复时间[数据驱动] - 业务影响[定性描述] ## 五、修复措施 - 止血操作[具体操作操作人时间] - 长期修复[代码/配置变更建议] ## 六、后续改进 ### 6.1 监控改进 [新增告警规则建议] ### 6.2 流程改进 [变更流程/发布流程改进建议] ### 6.3 技术改进 [架构改进建议] async def generate_report(self, context: dict) - str: 异步生成报告 prompt self.build_report_prompt(context) response await self.client.chat.completions.create( modelself.model, messages[ {role: system, content: 你是SRE专家严格执行报告格式。}, {role: user, content: prompt} ], temperature0.1, max_tokens4000 ) return response.choices[0].message.content async def review_and_refine(self, report: str, raw_data: dict) - str: 让LLM自我审查修正不准确的地方 review_prompt f请审查以下根因分析报告确保 1. 所有数据引用与原始数据一致 2. 根因结论有充分证据支持 3. 修复措施具体可执行原始数据摘要{json.dumps(raw_data, indent2, ensure_asciiFalse)[:1000]} 报告内容 {report} 请直接在原报告基础上修正只修改不准确的部分。 response await self.client.chat.completions.create( modelself.model, messages[{role: user, content: review_prompt}], temperature0.1, max_tokens4000 ) return response.choices[0].message.content报告推送与归档# pusher.py — 自动推送报告 import requests from confluence_client import ConfluenceClient class ReportPusher: 报告推送与归档 def push_to_dingtalk(self, report: str, webhook_url: str): 推送到钉钉群 # 提取摘要信息 summary_section report.split(## 一、故障概览)[1].split(##)[0] if ## 一、故障概览 in report else report[:500] payload { msgtype: markdown, markdown: { title: 根因分析报告已生成, text: f### 故障根因分析报告\n\n{summary_section}\n\n---\n*报告由AI自动生成请人工复核* } } requests.post(webhook_url, jsonpayload) def archive_to_confluence(self, report: str, incident_id: str): 归档到Confluence client ConfluenceClient(urlhttps://wiki.example.com, token...) client.create_page( spaceSRE, titlef根因分析报告-{incident_id}, bodyreport )四、效果评估这套系统上线后我们对过去3个月的故障复盘效率做了对比指标人工复盘AI辅助复盘提升报告产出时间平均2.5h平均8min94%报告完整性65%92%42%根因定位准确率78%85%9%后续改善落地率40%72%80%有意思的是报告完整性提升了42%——因为AI不会遗漏告警数据中的细节信息而工程师在事后复盘时经常会忘记一些关键事件。结语大模型做根因分析报告的自动生成不是为了替代工程师的判断——它是把工程师从写报告这个低价值工作中解放出来让你把精力花在分析根因、制定方案这些真正创造价值的事情上。记住一个原则AI出初稿人工做审核。既利用AI的效率又保留人的判断力。本文作者侯万里万里侯云原生运维工程师专注于AI运维智能化和故障自愈体系建设

从 LangGraph 到小说 Agent Runtime：用 flashNovel 实现章节级工作流、上下文记忆与人工确认

本文以我的个人项目 flashNovel (https://github.com/CuSO41108/flashnovel)为例，记录一次从“单次 Prompt 生成小说”到“章节级 Agent Runtime”的工程化尝试。项目当前还不是完整的 multi-agent 系统，更准确地说，它是一个基于 LangGraph 的…

2026/6/3 1:05:29 阅读更多

Honey Select 2 HF Patch：200+插件一站式解决方案，让游戏体验全面升级 [特殊字符]

Honey Select 2 HF Patch：200插件一站式解决方案，让游戏体验全面升级 🎮 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在…

2026/6/3 1:04:28 阅读更多

线上上下文溢出？双塔架构匹配模型提升大模型多模型多轮对话检索召回精度的实战调优

线上上下文溢出？双塔架构匹配模型提升大模型多模型多轮对话检索召回精度的实战调优前言 2026 年了，大模型上下文窗口依然不够用。直接截断历史对话？关键信息丢失严重。使用摘要压缩？细节噪声引入太多。我们在生产环境遇到过多次上…

2026/6/3 1:04:28 阅读更多

MUSE数据立方体与通道图在天文研究中的应用

1. 通道图基础与MUSE数据立方体解析通道图（Channel Maps）是天文学家研究星际介质动力学的重要工具。简单来说，它就像给宇宙气体做"CT扫描"——将天体发出的光按不同速度切片，让我们能观察气体在不同径向速度下的空间分…

2026/6/3 1:51:04 阅读更多

AMLA技术：优化大型语言模型注意力计算的新突破

1. AMLA技术背景与核心挑战在大型语言模型（LLM）领域，注意力机制作为Transformer架构的核心组件，其计算效率直接影响模型性能。传统多头注意力（MHA）面临两个主要瓶颈：一是随着上下文窗口扩展&…

2026/6/3 1:51:04 阅读更多

小红书笔记高清图/视频本地批量提取工具（Python脚本）

本文还有配套的精品资源，点击获取简介：直接运行就能从小红书笔记里批量抓取原图和无水印视频的本地Python工具，不需要第三方平台或API。核心模块包括模拟请求的XHSRequests、动态生成Header的HeaderTemplate、通用处理函数XSUtils&#x…

2026/6/3 1:50:44 阅读更多

杰理之耳机进入powerdown后，电平跟随powerdown跳动【篇】

设置PB1输出高电平

2026/6/3 1:50:44 阅读更多

Alias许可不够用：汽车A面设计团队的浮点许可优化方案

别急着申请加买Alias授权——A面团队喊"许可不够"十有八九是浮点许可被白占着不释放，不是真不够。我2026年初帮华南某主机厂外饰A面组（Alias AutoStudio 2026，20个浮动并发/32名设计师）做优化，不改采购量&am…

2026/6/3 1:50:03 阅读更多

告别引导失败：详解CentOS 7 UEFI安装时`inst.stage2=hd:LABEL`找不到设备的排查与修复

告别引导失败：详解CentOS 7 UEFI安装时inst.stage2hd:LABEL找不到设备的排查与修复在服务器和工作站的日常运维中，CentOS 7因其稳定性和长期支持依然是许多企业的首选。然而，当我们在Dell OptiPlex等主流机型上通过UEFI模式安装时&#xff0c…

2026/6/3 1:49:43 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

从 LangGraph 到小说 Agent Runtime：用 flashNovel 实现章节级工作流、上下文记忆与人工确认

Honey Select 2 HF Patch：200+插件一站式解决方案，让游戏体验全面升级 [特殊字符]

线上上下文溢出？双塔架构匹配模型提升大模型多模型多轮对话检索召回精度的实战调优

MUSE数据立方体与通道图在天文研究中的应用

AMLA技术：优化大型语言模型注意力计算的新突破

小红书笔记高清图/视频本地批量提取工具（Python脚本）

杰理之耳机进入powerdown后，电平跟随powerdown跳动【篇】

Alias许可不够用：汽车A面设计团队的浮点许可优化方案

告别引导失败：详解CentOS 7 UEFI安装时`inst.stage2=hd:LABEL`找不到设备的排查与修复

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因