三层安全防护 + 命令白名单:一个敢带进生产的 AI 运维排查脚本 把 AI 放进生产环境排查问题第一反应多半是「它会不会一不留神把数据库删了」——这也是我做这个项目时最在意的事。Poor Man’s DevOps Agent是一个 80KB 的单文件 Python 脚本扔进容器、接上任意 OpenAI 兼容 API就能用自然语言对话式排查线上问题。而它敢被带进生产环境的核心是一套三层安全防护危险命令硬拦截、命令白名单、写操作人工确认。宁可多确认一次也不让 LLM 的幻觉删掉生产数据。它怎么工作你描述现象它像运维工程师一样先形成假设再用最小的只读命令逐个验证命中就深挖、没命中就换假设你帮我看看这个容器为什么 CPU 这么高 Agent先形成假设——① GC 停顿 ② IO 瓶颈 验证①top CPU 89%、内存 45%假设①命中继续深挖 docker exec py-spy dump --pid 1 抓到线程停在 gc.collect根因是内存泄漏触发频繁 GC 建议查看 app.py 的对象缓存逻辑已把该服务 OOM 阈值写入记忆为什么值得一看单文件、零依赖scp agent.py 进容器标准库就能跑Python 2.7 和 3.x 都兼容。不装 node、不装 CLI、不引一堆依赖。不绑厂商任何 OpenAI 兼容 API 都能用——DeepSeek、通义千问、智谱 GLM、Kimi、豆包、讯飞星火或者本地部署的 Ollama、vLLM。公司内网的私有模型也行。三层安全防护这是敢把它带进生产的关键——rm -rf /、mkfs、dd of/dev/ 这类危险命令直接硬拦截只有白名单内的命令能执行cat/grep/ps 这类只读命令免确认直接放行其余需人工确认。LLM 不会因为幻觉把你的生产环境删了。借鉴 Claude Code 的核心思路流式输出边生成边显示、LLM 摘要式上下文压缩长对话不丢语义、TodoWrite 任务追踪、工作区持久化记忆排查结论跨会话累积、斜杠命令。它和 Claude Code 的区别不是要复刻 Claude Code。Claude Code 是日常开发的主力工具大而全这个项目是应急时塞进容器的那一个脚本只做「只读排查」这一件事做到极致轻。借鉴它的思考方式但用完就删避免 API Key 泄露。说点实在的局限不忽悠它不是生产级常驻服务是临时排查工具LLM 给的分析只是参考不保证 100% 正确关键决策还得你自己判断涉及写操作的命令务必人工确认后再执行。它解决的是「非运维背景的同学临时需要进容器排查」这个场景不是要替代 DataDog 或专业监控。怎么用curl -fsSL https://raw.githubusercontent.com/vector4wang/poor-mans-devops-agent/main/agent.py -o agent.py export DEBUGBOT_API_URLhttps://your-llm/v1/chat/completions export DEBUGBOT_API_KEYsk-xxxxx export DEBUGBOT_MODELdeepseek-chat python agent.pyGitHubhttps://github.com/vector4wang/poor-mans-devops-agent如果对你有帮助欢迎 Star也欢迎提 Issue 和 PR 一起完善。