监控CPU的负载不均衡导致性能问题

原创于 2025-07-21 16:39:52 发布 · 986 阅读

CC 4.0 BY-SA版权

文章标签：

现象：线上两套环境配置都是虚拟机32核心CPU，整体数据库，中间件没有太大的差异。但是其中一套环境明显性能不如另一套。

通过使用top命令按1查看每一个CPU核心的负载

#top 按1

很明显负载集中在前16核心上。

下面是每一列的详细介绍：

列名	全称	说明
us	User Space	用户态进程占用 CPU 时间百分比（非 nice 优先级进程）
sy	System	内核态（系统调用、中断处理等）占用 CPU 百分比
ni	Nice	低优先级（nice 值 >0）的用户进程占用百分比
id	Idle	CPU 空闲时间百分比
wa	I/O Wait	等待 I/O 操作完成的阻塞时间百分比（高值可能表示磁盘瓶颈）
hi	Hardware IRQ	处理硬件中断的时间百分比（如网卡、磁盘控制器等硬件触发的中断）
si	Software IRQ	处理软件中断的时间百分比（如网络数据包处理、定时器等软中断）
st	Steal Time	虚拟化环境下被 Hypervisor 偷走的时间百分比（仅虚拟机有效）

通过采集每一个核心的si值监控长期运行曲线

下图中突出就是一部分CPUsi值很高，处于压力高峰：

查看同时期的CPU负载：

系统负载：

可以看出负载比较高，实际上一般CPU没有充分利用起来。

还可以查看interrupts得到更加详细的CPU每一个核心的中断统计

#cat /proc/interrupts

cat /proc/interrupts 命令用于查看 Linux 系统中硬件中断（IRQ）的统计信息。它会显示每个 CPU 核心处理的中断次数、中断类型（如硬件设备、定时器、网络卡等）以及对应的中断号（IRQ number）。

简单来说从左到右，分别为：1、逻辑中断号，2、中断在各CPU发生的次数，3、中断所属设备类名称，4、硬件中断号，5、中断处理函数。

详细解释

排查高负载问题
- 如果某个 CPU 核心的中断数远高于其他核心，可能说明 中断负载不均衡，需要调整 IRQ 亲和性（irqbalance 或手动绑定）。
- 例如，网卡中断（如 enp0s3）集中在 CPU0，可能导致单核高负载。
识别硬件设备中断
- 可以查看 哪个设备触发了最多中断（如网卡、磁盘控制器、USB 设备）。
监控中断变化
- 多次运行 watch -n 1 'cat /proc/interrupts' 可动态观察中断增长情况，排查异常中断风暴。
调试驱动程序或内核问题
- 如果某个设备的中断异常增长（如网卡中断暴增），可能是驱动或硬件故障。

在虚拟机环境中，观察到只有前 16 个 CPU 核心的软中断（si）值很高（>5%），而后 16 个核心的 si 值很低（<1%）时，这通常与 虚拟化平台的中断处理和 CPU 分配机制 有关。

以下是根本原因分析和解决方案：

# 查看哪些中断绑定到前16核心
grep -E "virtio.*input" /proc/interrupts | awk '{print $1}' | cut -d: -f1 | xargs -I{} cat /proc/irq/{}/smp_affinity_list

输出可能显示类似 0-15（表示只绑定到前16 个核心）。

还有其他一些原因也要注意：