清风何往的个人博客

当服务器负载高时，应当遵循从上到下，从整体到局部的排查思路，才能快速定位问题的根源。

使用uptime或者top命令，查看系统负载情况，重点关注1分钟，5分钟，15分钟三个值

1.如果1分钟的负载远高于15分钟的负载，说明负载是近期突然飙升的，有可能是突发任务或者是攻击。

2.如果是15分钟的负载也很高，则说明系统已经高负载运行了一段时间了。

通过读取到的系统负载与cpu的核心数做对比，如果系统负载持续的超过了cpu的核心数，说明系统存在严重的性能瓶颈，大量的进程在等待cpu资源

1.继续使用top命令进行分析：

重点关注一下几个值

如果是 CPU 密集型问题：
1. 我会继续使用 top，按 P 键按 CPU 使用率排序，找到占用 CPU 最高的那个进程。
2. 如果这个进程是 Java、PHP 等应用，我会联系开发人员，并可能使用 jstack (Java) 或 strace 等工具进一步分析该进程在做什么，看它是不是陷入了死循环或在进行大量计算。
3. 我也会用 perf top 来实时分析内核和用户空间的函数调用热点，精确定位是哪个函数消耗了 CPU。
如果是 I/O 密集型问题：
1. 我会使用 iotop 或 pidstat -d 1 来直接找出哪个进程在进行大量的读写操作。
2. 我会检查这个进程相关的业务逻辑，比如是不是在进行大量的数据读写、日志写入或者备份操作。
3. 我还会用 iostat -x 1 来查看具体是哪块磁盘的 %util (利用率) 接近 100%，确认物理设备的瓶颈。
如果是内存密集型问题：
1. top 按 M 键按内存排序，找到占用内存最多的进程。
2. 我会检查 dmesg -T | grep -i oom，看看系统最近是否发生过 OOM (Out of Memory) Killer，这能直接告诉我哪个进程因为内存耗尽被内核杀死了。
3. 我会分析这个进程是否存在内存泄漏，并通知开发进行排查。”

Linux系统负载高排查思路与步骤分享