sysstat：Linux性能监控工具包全面解析

不爱说话的我

于 2025-06-13 15:12:12 发布

阅读量414

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_42146230/article/details/148658194

本文还有配套的精品资源，点击获取

简介：sysstat是一款功能强大的Linux性能监控工具，包含sar等多个实用程序用于收集、分析系统性能数据。系统管理员可利用其诊断性能问题，优化资源使用。本文将详细介绍sysstat的核心组件及使用方法，并提供性能监控策略、警报自动化和性能优化的实践指导。 sysstat软件包

1. sysstat软件包介绍

系统管理员和运维工程师在维护Linux系统时，需要实时监控系统性能，及时发现并解决性能问题。sysstat软件包就是这样一款强大的系统监控工具，它包含了一系列用于收集和报告系统利用率和活动的工具。本章节将向读者介绍sysstat的安装、基本使用和其核心组件。

1.1 sysstat软件包组成

sysstat主要由两个命令组成： sar 和 sadf 。其中， sar 命令用于收集、报告或保存系统活动信息，而 sadf 则用于将 sar 收集的数据格式化输出。sysstat软件包还包括多个脚本文件，这些脚本在系统启动时自动启动sar服务，保证了数据收集的连续性和准确性。

1.2 安装sysstat

安装sysstat在大多数Linux发行版中非常简单。在基于Debian的系统中，使用 apt-get 命令安装：

sudo apt-get install sysstat

对于基于RPM的系统，比如CentOS或Fedora，可以使用 yum 或 dnf ：

sudo yum install sysstat
# 或者使用 dnf
sudo dnf install sysstat

安装完成后，可以使用 service 命令来启动 sysstat 服务：

sudo service sysstat start

在系统重启后，可以使用以下命令确保 sysstat 服务自动启动：

sudo systemctl enable sysstat

在本章的后续部分，我们将深入探讨 sar 命令的核心功能以及如何利用它来进行有效的系统性能监控。接下来，我们将先了解 sar 命令的基本使用方法及其参数解析，从而为进一步分析和优化系统性能奠定基础。

2. sar命令核心功能

在Linux系统中，sar命令用于收集和报告系统的活动信息。它能够收集包括CPU使用率、内存和交换空间使用、I/O和中断等信息，并将这些信息记录下来供以后分析。sar命令是sysstat软件包的重要组成部分，它为系统管理员提供了一种机制来监控和分析系统行为。

2.1 sar命令基本使用

2.1.1 sar命令格式和参数解析

sar命令的基本格式为：

sar [选项] [时间间隔] [次数]

选项 ：用于指定收集数据的类型。比如， -u 选项用于显示CPU使用情况的报告， -r 用于显示内存使用情况， -b 用于显示I/O和传输速率的统计。
时间间隔 ：指定两次sar命令之间的时间间隔，单位为秒。
次数 ：指定sar命令执行的次数。

例如，要每隔5秒收集一次CPU使用率信息，并重复执行10次，可以使用如下命令：

sar -u 5 10

2.1.2 sar命令历史数据回顾

sar命令不仅仅能实时监控系统活动，还可以从历史数据文件中读取并报告过去的信息。sysstat包通常将收集到的数据保存在 /var/log/sa/saXX 文件中，其中 XX 是当前日期。要查看历史数据，可以使用sar命令的 -f 选项指定数据文件：

sar -f /var/log/sa/sa22 -u

这条命令会显示22号当天的CPU使用率历史数据。

2.2 sar命令数据分析

2.2.1 CPU利用率统计

CPU使用率是系统管理员关注的重点指标之一。sar命令的 -u 选项能够报告CPU利用率，包括用户空间、系统空间以及空闲时间的百分比。

一个典型的sar命令输出片段如下：

08:00:00 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
08:10:00 PM     all      6.01      0.00      3.00      0.00      0.00     90.99
08:20:00 PM     all      7.01      0.00      3.00      0.00      0.00     89.99

在这个例子中，系统在晚上8点到9点之间的用户空间CPU使用率平均为6.51%（6.01%和7.01%的平均），系统空间CPU使用率为3.00%。

2.2.2 内存使用情况报告

sar命令的 -r 选项能够报告系统的内存使用情况，显示物理内存、虚拟内存和交换空间的使用情况。

一个简单的例子如下：

08:00:00 PM kbmemfree kbmemused  %memused kbbuffers  kbcached  kbcommit   %commit
08:10:00 PM   750928   3009928     80.00    23624   1894128   5265404     85.00
08:20:00 PM   752428   3008428     80.00    24824   1893128   5266404     85.00

在这个例子中，物理内存使用了大约80%。同时，Linux系统通常会尽量保留一部分内存作为缓冲和缓存( kbbuffers 和 kbcached )，这有助于提高系统性能。

2.2.3 网络I/O统计分析

sar命令的 -n 选项允许用户收集网络I/O统计信息。可以进一步指定参数如 DEV 来获取网络设备的活动信息。

例如：

08:00:00 PM     IFACE   rxpck/s   txpck/s    rxbyt/s    txbyt/s   rxmcst/s
08:10:00 PM      eth0     14.00     16.00   12356.00   12378.00      0.00
08:20:00 PM      eth0     15.00     14.00   13200.00   11000.00      0.00

上面的数据显示了网络接口 eth0 每秒接收( rxpck/s )和发送( txpck/s )的数据包数量，以及字节( rxbyt/s , txbyt/s )。这对于分析网络流量和性能瓶颈非常有用。

通过以上分析，sar命令提供的数据对于系统性能监控和故障排查有着至关重要的作用。系统管理员可以依据sar报告来诊断系统瓶颈，进行性能优化和资源配置。在下一章节中，我们将探索iostat命令如何对磁盘I/O性能进行监控。

3. iostat命令磁盘I/O监控

3.1 iostat命令概述

3.1.1 iostat命令的基本用法

iostat是Sysstat软件包中的一个工具，它提供对系统输入/输出设备负载的监控。通过对I/O性能的持续监测，管理员能够了解磁盘设备的工作情况，从而进行有效的性能调优或故障排除。

基本的iostat命令语法如下：

iostat [options] [ <interval> [ <count> ] ]

options 允许用户指定多种选项，例如 -x 显示扩展统计信息。
interval 表示间隔时间，单位可以是秒、分钟、小时或天。
count 表示总共显示报告的次数。

例如，要查看每个设备的详细统计信息，可以使用 -x 选项：

iostat -x 1 5

上面的命令表示每秒输出一次报告，并总共输出5次。

3.1.2 iostat与文件系统性能

iostat不仅可以提供实时的磁盘使用情况，还可以与文件系统性能监测结合，提供更深入的性能分析。例如，当文件系统出现瓶颈时，iostat的输出可以揭示磁盘I/O的瓶颈所在，帮助系统管理员诊断问题。

3.2 iostat命令深入分析

3.2.1 磁盘读写性能指标解析

磁盘读写性能指标是iostat报告的核心，包括每秒读取或写入的块数（rMB/s和wMB/s），以及平均服务时间（svctm）。通过这些指标，我们可以对磁盘性能进行初步评估。

例如，以下输出显示了磁盘的读写统计信息：

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm %util
sda              0.00    29.83    2.82   13.25   200.75  2760.96   408.58     0.12    7.83   5.82  8.63

r/s 和 w/s 分别表示读取和写入请求的次数。
rkB/s 和 wkB/s 表示每秒读取和写入的数据量，单位为千字节。
avgrq-sz 是平均请求的大小。
await 是平均每次I/O操作的等待时间。
svctm 表示平均服务时间。
%util 表示CPU用于I/O的时间比例。

3.2.2 RAID阵列监控案例分析

在RAID（Redundant Array of Independent Disks）阵列系统中，iostat可以用来监控磁盘的性能和健康状况。通过iostat，管理员可以检测到单个磁盘的性能下降或者识别出RAID阵列的性能瓶颈。

例如，在RAID阵列环境下，监控命令可能如下：

iostat -x md0 1

这里 -x 参数会提供更详细的统计信息，并且 md0 是一个软件RAID设备。通过监控输出，管理员可以观察到设备的读写性能，如：

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm %util
md0              0.00     0.00    0.00   31.62     0.00  3223.66   203.52     0.11    3.49   2.34  7.41

输出中，可以关注 %util 列，它显示了该RAID阵列的利用率。如果利用率接近或超过100%，则表明磁盘I/O已饱和，可能会导致性能下降。同样， await 列提供了平均等待时间，如果这个值异常高，可能表明存在性能问题。管理员可以根据这些信息决定是否需要优化RAID配置，例如调整条带大小或增加缓存。

4. mpstat命令CPU活动报告

4.1 mpstat命令概览

4.1.1 mpstat命令结构和输出解释

mpstat 是sysstat软件包的一部分，专门用于监控多处理器（SMP）系统中每个可用CPU的活动情况。mpstat命令能够提供包括CPU利用率、中断、上下文切换次数等在内的各种统计信息，这对于多核系统的性能调优尤为重要。

输出格式通常包括如下列：

%user ：用户态CPU使用率。
%nice ：经过nice调整的用户态CPU使用率。
%system ：内核态CPU使用率。
%iowait ：CPU等待输入/输出完成的百分比。
%irq ：处理中断的百分比。
%soft ：软中断的百分比。
%steal ：由于虚拟环境管理程序虚拟CPU的需要而强制等待的百分比。
%idle ：空闲时间的百分比。
cpu ：显示了报告针对哪个CPU进行了统计。

命令的基本格式是：

mpstat [选项] [时间间隔 [次数]]

这里时间间隔指定了两次统计信息之间的间隔时间，次数指定了统计次数。

4.1.2 CPU负载和效率评估

CPU负载是指一段时间内CPU需要处理的平均任务数，而效率则是指CPU在处理任务时的实际使用情况。mpstat命令可以用来评估CPU的效率和负载，从而帮助系统管理员判断系统是否资源不足，或者CPU是否在空闲等待任务。

例如，如果观察到系统中的 %idle 值一直很高，这通常意味着CPU资源还没有得到充分利用。而当 %user 和 %system 值加起来接近100%时，表示CPU正在满负荷工作，此时如果其他进程需要CPU资源，可能会导致性能下降。

4.2 多核CPU监控与调优

4.2.1 核间负载均衡的重要性

在多核处理器架构中，核间负载均衡是保证CPU资源得到充分和公平利用的关键。当某个核心比其他核心负载更高时，可能会出现性能瓶颈。mpstat命令可以用来检测这种负载不均衡的情况，通过观察单个CPU核心的负载情况，系统管理员可以采取措施进行调整。

使用mpstat的 -P 参数可以分别观察每个核心的使用情况，如：

mpstat -P ALL

如果发现有核心的负载远高于其他核心，可能需要调整任务调度策略，确保所有核心都能尽可能均衡地分担任务。

4.2.2 优化CPU调度策略

优化CPU调度策略是提升多核系统性能的有效手段。通过合理配置内核参数，比如调整进程优先级、设置CPU亲和性等，可以使得CPU更加高效地运行。

Linux提供了如 nice 和 cpufreq 等工具来帮助管理员优化CPU调度策略。使用 nice 可以调整进程的优先级，而 cpufreq 则可以调整CPU的工作频率和调度策略。

此外，也可以通过调整应用程序来利用多核优势，比如通过多线程、并行计算等技术，让每个核心都有机会执行任务，从而提升整体的计算性能。

总的来说，mpstat命令为系统管理员提供了一个强大的工具来监控和优化CPU活动，通过理解并应用这些数据，能够显著提升系统的运行效率和稳定性。

5. vmstat命令系统活动概览

5.1 vmstat命令基础

5.1.1 vmstat的输出解读

vmstat （virtual memory statistics）是一个报告关于内核线程、虚拟内存、磁盘、系统进程、I/O块设备和CPU活动的工具。 vmstat 命令提供了一个快照，可以用来分析系统的性能。输出通常分为几个区域，每个区域提供不同类别的信息。

运行 vmstat 不带任何参数会显示从系统启动到现在的平均信息。通常我们使用 vmstat 命令时会附带间隔时间（秒）和采样次数，格式如下：

vmstat [delay [count]]

例如， vmstat 5 10 将会显示10次，每隔5秒刷新一次的系统状态信息。

下面是一个 vmstat 命令输出的示例：

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0 123456 765432 123456 654321    0    0    10    12   10   23  3  4 90  3  0
 1  0 123456 765431 123457 654322    0    0     8     6   11   22  3  5 91  2  0
 1  0 123456 765430 123458 654323    0    0     6     8    9   21  2  4 92  2  0

procs 区域显示了运行和等待运行的进程数。
memory 区域展示了内存的使用情况，包括总的、空闲的、被使用的缓冲区和缓存。
swap 区域显示了交换区的使用情况。
io 区域提供了从块设备的读和写的统计信息。
system 区域显示了中断和上下文切换的次数。
cpu 区域提供了CPU时间在各个状态的百分比，包括用户空间、系统空间、空闲、等待I/O等。

5.1.2 系统资源占用情况分析

vmstat 提供了一个系统资源占用情况的全景视图。要进行深入分析，我们可以观察以下几个方面：

r 列显示了等待CPU时间片的进程数。如果这个数字持续很高，说明可能CPU资源不足。
free 列显示了系统中空闲的内存总量。在使用物理内存时，我们通常希望这个值足够高。
si 和 so 列分别表示每秒从磁盘交换到内存和从内存交换到磁盘的量。如果这两个值非零，说明可能内存不足。
us 、 sy 、 id 、 wa 分别代表了用户空间、系统空间、空闲以及等待I/O操作的CPU时间百分比。如果用户空间时间 us 过高，可能表明有CPU密集型进程在运行；而系统空间时间 sy 高可能意味着系统调用非常频繁；如果 wa 较高，则可能表示有磁盘I/O瓶颈。
in 和 cs 列分别表示每秒中断数和上下文切换数。对于 in ，值应该与系统的硬件中断率相匹配。高的 cs 值可能表明有性能问题。

5.2 系统性能瓶颈诊断

5.2.1 内存不足的识别与处理

内存不足是常见的系统瓶颈之一， vmstat 中的 free 列可以帮助我们识别内存的使用情况。当 free 列的值非常低时，说明系统可能正在使用虚拟内存（交换分区）来运行。

识别到内存不足之后，我们可以通过以下方法处理：

关闭不必要的服务和应用。
增加物理内存。
调整交换分区的大小，虽然这通常是最后的选择。
使用内存分析工具（如 top 、 htop 或 pmap ）来确定哪个进程使用了大量的内存，然后根据需要调整或优化该进程。

5.2.2 上下文切换的监控和优化

上下文切换（context switching）是操作系统在任务之间切换时保存和恢复寄存器等信息的过程。虽然上下文切换是正常的，但大量的切换可能导致系统性能下降。 vmstat 中的 cs 列显示了每秒发生的上下文切换次数。

过多的上下文切换可能是由于以下几个原因：

大量的短时进程或线程。
多线程应用中的锁争用。
中断频率过高。

监控到高上下文切换后，可以采取以下措施进行优化：

使用工具（如 strace 或 perf ）来识别频繁切换的进程或线程。
优化应用代码以减少锁竞争。
对系统进行调优，比如调整内核参数（如 /proc/sys/kernel/threads-max ）来限制线程数。
检查硬件和驱动程序，确保它们是最新和最优化的。

通过这些措施，我们可以减轻上下文切换带来的性能负担，确保系统运行更加高效。

6. pidstat命令进程资源监控

pidstat（process statistics）是一个用于监控系统中所有或指定进程的资源使用情况的工具。它在系统管理员对特定进程或系统整体资源消耗有疑问时非常有用。本章将详细介绍pidstat的基本用法、监控策略以及如何使用它进行进程级的性能分析。

6.1 pidstat命令入门

6.1.1 pidstat的基本功能和应用

pidstat的基本功能包括监控进程的CPU使用率、内存使用、I/O等资源消耗情况。它提供了一个简单直观的方式来诊断和分析系统瓶颈。与其他系统监控工具相比，pidstat专注于单个进程的资源消耗，允许系统管理员对特定进程进行细致的性能分析。

命令的基本格式如下：

pidstat [options] [interval] [count]

interval 表示统计的时间间隔，单位可以是秒、分钟、小时。
count 表示总共需要执行的次数。

要运行pidstat并查看每个进程的CPU使用情况，可以使用：

pidstat -u 1 5

这里 -u 表示监控CPU使用情况， 1 表示每隔1秒输出一次， 5 表示总共输出5次。

6.1.2 进程CPU和内存使用情况监测

除了CPU使用情况，pidstat也可以显示进程的内存使用情况。要查看特定进程的内存使用，可以添加 -r 选项：

pidstat -r -p <pid> 1 5

其中 <pid> 是进程ID。此命令会显示每个间隔内指定进程的内存使用量和内存使用率。

6.2 进程级性能分析

6.2.1 系统进程监控策略

要对系统进行进程级的性能分析，我们首先需要确定监控哪些进程。对于一般用途，可以监控所有进程：

pidstat -u -p ALL

对于大型系统，可能需要跟踪特定的、重要的进程。例如，监控所有运行中的Web服务器进程：

pidstat -u -p $(pidof httpd) 1 5

上面命令中的 $(pidof httpd) 会返回所有httpd进程的PID。

6.2.2 I/O和上下文切换问题诊断

进程I/O操作监控同样可以通过pidstat实现。要监控进程的I/O统计信息，使用 -d 选项：

pidstat -d -p <pid> 1 5

上下文切换是操作系统管理进程时的一个重要参数，它影响到进程调度的效率。可以通过 cs 选项来查看进程的上下文切换信息：

pidstat -w -p <pid> 1 5

代码逻辑解释和参数说明

在上面的代码示例中，pidstat命令使用了多个参数来细化我们所需的监控信息。例如：

-u 参数用于显示CPU使用情况。其中 -u 的参数后，我们可以看到进程的user和system CPU使用百分比以及非自愿上下文切换数。
-r 参数用于显示内存使用信息，比如min fault、maj fault（分别表示未在内存中的数据被访问时产生的次/主页面错误次数），以及内存使用百分比。
-d 参数用于监控进程I/O统计信息，包括读和写次数以及读和写的字节数。
-w 参数用于显示进程的上下文切换次数，这可以帮助诊断那些可能导致性能下降的频繁上下文切换问题。

接下来，我们可以使用 top 命令来详细查看进程的优先级和其他动态信息：

top -p <pid>

命令输出中会包含进程ID <pid> 的实时状态信息，这可以帮助我们进一步理解进程的性能状况。

通过本章的介绍，我们学习了如何使用pidstat命令来监控系统中各个进程的资源使用情况。这些信息对于分析系统性能瓶颈、优化进程资源分配以及进行故障诊断都是非常宝贵的。接下来的章节将进一步探讨性能监控工具，包括如何构建警报自动化系统以及性能优化的最佳实践。

7. sa命令日志管理与性能优化

7.1 sa命令使用和日志分析

sa命令是Sysstat工具包中的一个组成部分，它能够统计系统各种活动的报告，并将其写入日志文件中。通过分析这些日志文件，我们可以监控系统的行为，并从中找出性能瓶颈和潜在问题。

7.1.1 sa命令的基本用法

sa命令的使用通常与sadc命令结合，sadc是一个数据收集工具，它定期收集系统活动数据并记录在二进制文件中。sa命令用来将这些二进制文件中的数据转换为文本格式，并生成汇总报告。

# 使用sa命令查看系统活动数据报告
sa -s [start_time] -e [end_time]

-s 参数用来指定开始时间，格式为 [YYYY-MM-DD HH:MM] 。
-e 参数用来指定结束时间，格式同上。

例如，要查看2023年3月15日9点到10点的系统活动数据：

sa -s '2023-03-15 09:00' -e '2023-03-15 10:00'

7.1.2 系统活动数据的记录与回放

sadc命令在后台定期运行，将数据写入到特定的日志文件中。sa命令可以对这些日志文件进行分析，生成更易于阅读的报告。

# 手动记录系统活动数据
sadc -S DISK -S PROC -S swapping -S IO -S CPU 1 60

-S 参数用来指定要记录的系统活动类型。
最后的数字 1 和 60 分别表示记录间隔（秒）和记录次数。

要查看这些日志数据，可以使用sa命令：

# 对于sadc生成的日志文件进行汇总
sa -s [start_time] -e [end_time] /var/log/sa/saXX

/var/log/sa/saXX 是sadc命令生成的日志文件路径， XX 通常是一个数字，表示日志文件的序号。

7.2 性能监控策略与审计

7.2.1 常见性能问题的案例分析

在系统中，性能问题可能涉及CPU过载、内存不足、磁盘I/O延迟等。sa命令生成的日志文件能提供系统活动的详细报告，这有助于我们诊断这些性能问题。

CPU过载 ：通过分析sa报告中的CPU利用率数据，我们可以确认是否存在CPU密集型进程导致的过载。
内存不足 ：内存页面交换活动频繁可能意味着系统内存不足。
磁盘I/O延迟 ：分析磁盘读写活动可以揭示磁盘I/O瓶颈。

7.2.2 系统监控与故障预防策略

通过定期运行sa命令并分析输出的日志文件，我们可以建立性能监控策略，实时监控系统健康状况。此外，历史日志数据对于故障预防也极为重要，它可以帮助我们识别和解决潜在的问题。

7.3 警报自动化与性能优化

7.3.1 自动化警报系统的搭建

为了实现自动化监控，可以结合脚本和sa命令来搭建警报系统。例如，可以使用shell脚本来分析sa命令的输出，一旦检测到阈值异常，立即触发警报。

#!/bin/bash
# 示例脚本检测CPU使用率是否超过设定阈值
THRESHOLD=90
CPU_USAGE=$(sa -u | awk '/average:/ {print $3}')
if (( $(echo "$CPU_USAGE > $THRESHOLD" | bc -l) )); then
    echo "警报：CPU使用率超过阈值！当前使用率为 $CPU_USAGE%"
    # 这里可以添加发送邮件或短信通知的代码
fi