开发转兼职DBA（七）：不是SQL的锅——从操作系统层面排查数据库问题

发布时间：2026/7/2 5:59:44

开发转兼职DBA七不是SQL的锅——从操作系统层面排查数据库问题数据库慢了第一反应是查SQL、查执行计划。但有时候SQL没问题索引也在走数据库配置也没改——问题在操作系统层。这篇讲两个真实案例Tomcat权限污染导致系统假死和磁盘IO瓶颈拖慢整个数据库。文章目录开发转兼职DBA七不是SQL的锅——从操作系统层面排查数据库问题案例一系统挂了结果不是数据库的问题现象排查过程修复为什么会这样教训案例2数据库慢了结果是磁盘的问题现象跳出数据库看操作系统解决加大内存为什么加大内存能解决磁盘问题为什么加大内存能解决磁盘问题两层缓存这个案例里发生了什么另一种思路不扩内存把SGA加大一句话总结排查思路逐层往下追几个常用命令速查CPU相关内存相关磁盘IO相关网络相关文件权限相关系列终章总结案例一系统挂了结果不是数据库的问题现象某天上午用户打电话来系统打不开了。登录检查数据库正常监听正常SQL能跑应用服务器ping得通但浏览器访问页面一直转圈最终超时第一反应数据库是不是锁了查了一下没有阻塞会话没有异常等待。数据库好好的。那问题在哪排查过程第一步看应用日志。tail-200f/opt/tomcat/logs/catalina.out报错java.io.FileNotFoundException: /opt/tomcat/logs/localhost.2024-01-15.log (Permission denied) java.io.IOException: Unable to create directory /opt/tomcat/work/Catalina/localhost/_写不进去日志文件。第二步查文件权限。ls-la/opt/tomcat/logs/-rw-r----- 1 root root 12345 Jan 15 09:00 localhost.2024-01-15.log drwxr-x--- 2 root root 4096 Jan 15 09:00 Catalina/所有者全是root。第三步查Tomcat是用什么用户启动的。psaux|greptomcattomcat 12345 2.3 15.4 2345678 654321 ? Sl 09:00 1:23 /usr/bin/java -jar ...现在是用tomcat用户跑的。但日志文件属于root。第四步问了一圈真相大白。前一天晚上有人用root账号手动重启了Tomcatsu- /opt/tomcat/bin/startup.shTomcat以root身份启动。运行过程中创建的日志文件、临时文件、编译后的JSP class文件——全部属于root。第二天早上自动化的systemd服务以tomcat用户重启了Tomcat。新进程想写日志文件——没有权限。想编译JSP——work目录属于root写不进去。应用看起来挂了但数据库完全正常。修复# 停掉Tomcatsystemctl stop tomcat# 把所有文件归属改回tomcat用户chown-Rtomcat:tomcat /opt/tomcat/# 重启systemctl start tomcat一行chown问题解决。为什么会这样Linux的权限模型很简单-rw-r----- 1 tomcat tomcat 12345 Jan 15 09:00 catalina.out │├──┤├──┤├──┤ ├──┤ ├──┤ │ │ │ │ │ └── 组名 │ │ │ │ └── 所有者 │ │ │ └── 其他用户的权限--- 无权限 │ │ └── 同组用户的权限r-- 只读 │ └── 所有者的权限rw- 读写 └── 文件类型- 普通文件d 目录进程创建新文件时文件的所有者是进程的运行用户。root启动的进程创建的文件属于root。之后tomcat用户想去写这些文件——权限不够。教训永远不要用root启动应用服务——不仅权限会乱安全风险也大用systemd管理服务在unit文件里指定用户[Service] Usertomcat Grouptomcat排查系统挂了不要只盯着数据库——应用层的问题比数据库层更常见案例2数据库慢了结果是磁盘的问题现象某大库Oracle数据库整体变慢。不是某一条SQL慢是所有SQL都慢。第一反应是不是锁表了查v$session没有阻塞。查AWR报告发现db file sequential read的等待时间比平时高了几倍。db file sequential read是单块读等待——Oracle从数据文件读一个块到缓冲区的等待。这个等待变长要么是读的块变多了要么是每次读的时间变长了。查执行计划跟以前一样没变。查索引没变。查数据量没有暴增。不是SQL的问题。跳出数据库看操作系统第一步看CPU。top%Cpu(s): 3.0 us, 1.5 sy, 0.0 ni, 55.0 id, 38.0 wa, 0.0 hi, 2.5 si关键指标ususer用户态CPU占用3%——不高sysystem内核态CPU占用1.5%——不高ididle空闲55%——一半多的CPU时间在空闲waiowait38%——严重不正常waiowait是CPU在等磁盘IO完成的时间占比。正常应该接近0。38%意味着CPU超过三分之一的时间在等磁盘。idle只有55%不是CPU忙是CPU在等磁盘。第二步看磁盘IO。iostat-x15Device rrqm/s wrqm/s r/s w/s rMB/s wMB/s await %util sda 0.0 12.0 350.0 200.0 2.8 1.6 35.8 98.5关键指标r/s, w/s每秒读写次数加起来550次/秒——很多await平均每次IO等待时间35.8ms——很高%util磁盘利用率98.5%——磁盘已经饱和35ms的await意味着什么Oracle一次单块读需要35ms。一个查询需要读100个块光等磁盘就要3.5秒。而且这不是个别慢查询的问题——550次/秒的IO请求量磁盘98.5%利用率磁盘已经被打满了。第三步看内存。free-gtotal used free shared buff/cache available Mem: 128 95 2 1 31 30 Swap: 8 1 7128G总内存Oracle的SGA占了约100G剩余留给操作系统的只有不到30G。其中buff/cache约31G——看起来不小但这是一个大库数据文件几百GB甚至上TB31G的page cache远远覆盖不了热点数据。128G总内存 ├── Oracle SGA: ~100GBuffer Cache Shared Pool 其他 ├── 进程系统: ~2G ├── page cache: ~31G └── 空闲: ~2G根因找到了大库数据量大128G内存里Oracle自己吃了100G留给操作系统page cache的只有30G缓存不住热点数据大量读请求直接打到磁盘磁盘被打满。解决加大内存服务器内存从128G扩到264G。Oracle的SGA配置没动还是100多G。多出来的136G全部留给操作系统。扩完之后top里看到最明显的变化idle从55%升到85%——CPU空闲时间多了wa从38%降到5%以下——CPU不用等磁盘了free -g的变化total used free shared buff/cache available Mem: 264 97 80 1 87 164page cache从31G涨到87G。Oracle的Buffer Cache没变但操作系统层多出了56G的缓存。Oracle的Buffer Cache没命中的数据块现在大概率在page cache里能找到——不用访问磁盘了。iostat的变化磁盘%util从98%降到30%左右await从35ms降到个位数。数据库整体性能恢复。不是改了任何SQL、加了任何索引、调了任何数据库参数——就是加了内存。为什么加大内存能解决磁盘问题为什么加大内存能解决磁盘问题这个问题的本质不是磁盘太慢是内存不够大缓存不住热点数据。但缓存这个词太笼统。内存分配给数据库之后实际上是两层缓存在配合工作很多人只看到了一层。两层缓存Oracle读一个数据块 ↓ 第一层Oracle自己的 Buffer CacheSGA里配的 db_cache_size ↓ 命中 → 直接返回 ↓ 未命中第二层Linux的 page cache操作系统的 buff/cache ↓ 命中 → 从内存读不需要访问磁盘 ↓ 未命中第三层磁盘 → 真正的物理IO慢第一层Oracle的Buffer Cache。这是Oracle自己管理的内存区域配多大由sga_target或db_cache_size决定。Oracle把频繁访问的数据块缓存在这里内部用LRU算法管理淘汰。Buffer Cache命中率就是第五篇讲的那个指标——低于90%说明不够用。第二层Linux的page cache。Oracle的数据文件.dbf也是操作系统管理的文件。Oracle向操作系统发起read调用时Linux先查page cache——如果这个数据块最近被读过还在内存里直接返回不访问磁盘。这两层缓存的关系Oracle的Buffer Cache是Oracle内部申请的内存通过sga_target分配。这部分内存被Oracle进程锁定Linux不会回收。Linux的page cache是操作系统自动管理的空闲内存。Linux会把没人用的内存全部拿来缓存磁盘数据。应用不用的内存越多page cache越大磁盘IO越少。内存就这么多给了Oracle就不能给Linux的page cache反过来也一样。所以内存规划的核心问题是Oracle的Buffer Cache和操作系统的page cache怎么分这个案例里发生了什么128G总内存。Oracle的SGA配了约100G其中Buffer Cache是大头操作系统和进程占用几G剩下的约30G被Linux自动用作page cache。128G总内存 ├── Oracle SGA: ~100GBuffer Cache占大部分 ├── 进程系统: ~3G └── page cache: ~31G大库的数据文件几百GB100G的Buffer Cache加上31G的page cache总共约130G的缓存。看似很多但一个跑了几年的大库热点数据分散在大量表和索引上130G的缓存覆盖不了。大量读请求穿透两层缓存直接打到磁盘。扩到264G之后264G总内存 ├── Oracle SGA: ~100G没变 ├── 进程系统: ~3G ├── page cache: ~87G大涨 └── 空闲: ~80GLinux会逐渐回收用作page cacheOracle的SGA没变Buffer Cache还是100G左右。但操作系统的page cache从31G涨到87G。Oracle的Buffer Cache没命中的数据块在page cache里命中的概率大大增加——很多请求不用访问磁盘了。磁盘压力骤降。iowait从38%降到5%以下idle从55%升到85%。另一种思路不扩内存把SGA加大既然缓存不够把Oracle的Buffer Cache从100G加大到150G是不是也能解决能缓解但有个问题Oracle的Buffer Cache只缓存Oracle自己的数据块。操作系统上的其他进程RMAN备份、日志收集、文件传输的磁盘IO不受Oracle Buffer Cache保护还是直接打磁盘。如果这些操作也在产生大量IOOracle加大Buffer Cache的作用有限。而操作系统的page cache是全局的——所有进程的文件IO都受益。Oracle的数据块、备份程序读的文件、日志文件的写入都能利用page cache减少磁盘IO。所以实际经验中不要把所有内存都分配给Oracle的SGA要留足够的内存给操作系统做page cache。一般建议Oracle SGA占总内存的40%~60%剩下的留给操作系统。这个案例里128G内存给Oracle 100GSGA占了78%——比例偏高了留给操作系统的太少。扩到264G后SGA只占38%操作系统拿到160Gpage cache充足磁盘压力自然下来了。这不是数据库调优能解决的问题。执行计划再优化索引再加该从磁盘读的块还是要读。瓶颈在磁盘IO解法在内存规划和两层缓存的配合。一句话总结数据库慢了不一定是SQL的问题。先看iostat和free确认瓶颈在哪一层。排查思路逐层往下追两个案例放在一起抽象出一个通用的排查链路用户说系统慢了/挂了 ↓ 第一层应用层 ├── 应用日志有没有报错Tomcat权限问题就是在这一层发现的 ├── 接口响应时间是多少 └── 是所有功能都慢还是某个功能慢 ↓ 第二层数据库层 ├── 有没有锁阻塞v$session的blocking_session ├── 有没有慢SQLv$sql按elapsed_time排序 ├── 等待事件是什么v$system_event └── 执行计划有没有变化 ↓ 第三层操作系统层 ├── CPU够不够top的us/sy/wa ├── 内存够不够free的available和buff/cache ├── 磁盘IO是不是瓶颈iostat的await和%util └── 网络通不通ping/telnet/netstat ↓ 第四层基础设施层 ├── 磁盘是不是快满了df -h ├── 存储后端有没有问题SAN/NAS/云盘 └── 有没有硬件故障dmesg | grep error大部分开发者到第二层就停了——查SQL、加索引、调参数。但如果问题在第三层、第四层在数据库里怎么折腾都没用。几个常用命令速查CPU相关# 整体CPU使用情况top# 每个CPU核心的使用情况mpstat-PALL15# 查哪个进程吃CPUpsaux--sort-%cpu|head-20重点关注%waiowait持续5%说明磁盘是瓶颈。内存相关# 内存使用概况free-m# 进程内存排序psaux--sort-%mem|head-20# 详细内存映射cat/proc/meminfo重点关注available真正可用的内存包含可回收的缓存、Swap usedswap用了多少持续增长说明物理内存不够。磁盘IO相关# 磁盘IO统计每秒刷新共5次iostat-x15# 查看哪个进程在疯狂读写磁盘iotop# 磁盘空间df-h# 目录大小du-sh/opt/*重点关注%util持续80%说明磁盘饱和await持续10msSSD1ms说明IO延迟高。网络相关# 查看网络连接状态netstat-tlnp# 测试数据库端口是否通telnet192.168.1.1001521# 查看网络流量sar-nDEV15# DNS解析nslookupdbserver文件权限相关# 查看权限ls-la/opt/tomcat/logs/# 递归修改所有者chown-Rtomcat:tomcat /opt/tomcat/# 修改权限chmod755/opt/tomcat/bin/startup.sh# 查看某用户对文件的权限su- tomcat-ctest -w /opt/tomcat/logs/catalina.out echo writable || echo not writable系列终章总结七篇文章一条线一只会写SQL ↓ 查询慢了二学会看执行计划加索引 ↓ 索引也救不了三数据库起不来了逼着理解WAL和redo ↓ undo也坏了四逼着理解MVCC和undo ↓ 不能老出事才救五学参数、内存、监控、备份 ↓ 换了个项目数据库换成了MySQL 六发现原理都一样 ↓ 数据库没问题系统还是慢七跳出数据库从操作系统层排查从一个只会写SELECT * FROM的开发者到能看执行计划优化SQL到理解WAL和MVCC的底层原理到能配参数做监控写备份脚本到跨数据库触类旁通到能跳出数据库从操作系统层面定位问题。这就是开发转兼职DBA的完整路径。不是因为我想学是因为小团队没有专职DBA出了事就是我扛。每次事故逼出一段认知每段认知沉淀成经验最终串成一条完整的知识链。标签#DBA #运维 #Linux #iostat #top #free #权限 #磁盘IO #page cache #故障排查

AI驱动的社交聚合平台：重构信息消费体验，对抗虚假信息

1. 项目概述：一个对抗虚假信息的聚合平台最近几年，大家刷社交媒体、看新闻的时候，是不是总有种感觉——信息越来越多了，但能信的、有用的却越来越少了？各种标题党、断章取义、甚至完全捏造的“新闻”满天飞&#xff0…

2026/6/30 22:47:25 阅读更多

医院电子签名怎么选？从“知情同意”到“病历归档”，这份选型指南请收好

在医疗数字化浪潮中，电子病历、移动护理、互联网医院等系统已经在全国各级医院普及。但有一个看似简单却至关重要的环节，往往成为医院信息化建设的“最后一公里”——电子签名。为什么？因为医院的签名场景太特殊了。它既要满足《电子签名法…

2026/6/30 4:38:41 阅读更多

搞懂 Qwen3-VL 的四个“分身“:Instruct、Thinking、Embedding、Reranker 到底怎么选?

Qwen3-VL 家族：Instruct、Thinking、Embedding、Reranker。看着像四个模型,实际用起来又不知道该拿哪个。我觉得有必要把这事儿讲清楚。一句话先抛出来:这四个不是同一类东西。Instruct 和 Thinking 是用来"理解回答"的生成式大模型,而 Embedding 和 Rera…

2026/6/30 16:26:16 阅读更多

HarmonyOS 本地持久化实战：Preferences、schema version 与空状态初始化

HarmonyOS 本地持久化实战：Preferences、schema version 与空状态初始化这个项目是一个桌面卡片工具，用户的卡片、收藏、回收站、提醒、主题、样式、备份信息和桌面 Form 选择都需要保存到本地。项目没有引入复杂数据库，而是使用 HarmonyOS p…

2026/7/2 5:59:42 阅读更多

聊聊 IChangeToken 接口

由于两个月的奋战，导致很久没更新了。就是上回老周说的那个产线和机械手搬货的项目，好不容易等到工厂放假了，我就偷偷乐了。当然也过年了，老周先给大伙伴们拜年了，P话不多讲，就祝大家身体健康、生活愉快。其…

2026/7/2 5:59:42 阅读更多

微信网页版终极解决方案：5分钟解锁全平台访问限制

微信网页版终极解决方案：5分钟解锁全平台访问限制【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版无法正常登录而烦恼吗&…

2026/7/2 5:59:42 阅读更多

工厂+策略+单例：拆解 OhMyGo 的 AI 模型层设计

GitHub：https://github.com/FindMyWay2Ting/OhMyGo 项目地址前置问题在动手写代码之前，先想清楚这个系统要解决什么问题：用户发起一次 AI 对话，系统需要根据用户选择的模型类型（普通对话 / RAG 文档问答 / MCP 工具调用…

2026/7/2 5:59:41 阅读更多

Windows窗口管理终极指南：用Traymond一键整理你的任务栏

Windows窗口管理终极指南：用Traymond一键整理你的任务栏【免费下载链接】traymond A simple Windows app for minimizing windows to tray icons 项目地址: https://gitcode.com/gh_mirrors/tr/traymond 你是否经常面对Windows任务栏上堆积如山的窗口图标而…

2026/7/2 5:59:21 阅读更多

AI算力基建动态简报（2026.07.01）

第1条：国内AI产业扶持政策正式落地执行核心信息：国常会出台的人工智能产业扶持政策于7月1日正式落地执行。政策要求新建万卡级智算中心必须配套高速光传输设备，同时加大高端芯片、存储材料研发补贴与税收减免力度。政策同时开放政企场景推动A…

2026/7/2 5:59:01 阅读更多

Selenium元素定位全解析：从八大方法到实战策略

1. 项目概述：从“找东西”到“精准操控” 做自动化测试，尤其是Web UI自动化，最核心也最让人头疼的一步是什么？不是写复杂的业务逻辑，也不是处理异步加载，而是最基础的—— 让程序找到页面上那个你想操作的…

2026/7/2 0:00:12 阅读更多

移动端UI自动化测试框架Maestro终极指南：从入门到实战

1. 项目概述：为什么是Maestro？ 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架，那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest，也折腾过各种基于图…

2026/7/2 0:00:12 阅读更多

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

1. 项目概述：从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试，尤其是Web应用安全评估，那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里，功能最强大、也最让人又爱又恨的，莫过…

2026/7/2 0:00:33 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 0:09:58 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/2 1:54:44 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/2 1:54:44 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/2 0:02:27 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/2 0:10:02 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/2 0:09:58 阅读更多

相关文章

AI驱动的社交聚合平台：重构信息消费体验，对抗虚假信息

医院电子签名怎么选？从“知情同意”到“病历归档”，这份选型指南请收好

搞懂 Qwen3-VL 的四个“分身“:Instruct、Thinking、Embedding、Reranker 到底怎么选?

HarmonyOS 本地持久化实战：Preferences、schema version 与空状态初始化

聊聊 IChangeToken 接口

微信网页版终极解决方案：5分钟解锁全平台访问限制

工厂+策略+单例：拆解 OhMyGo 的 AI 模型层设计

Windows窗口管理终极指南：用Traymond一键整理你的任务栏

AI算力基建动态简报（2026.07.01）

Selenium元素定位全解析：从八大方法到实战策略

移动端UI自动化测试框架Maestro终极指南：从入门到实战

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南