判断服务器负载高低确定卡机原因

本文指导如何通过运行Linux下的top、bwm等命令,分析服务器负载、网络流量及磁盘速度,以定位卡机原因,适用于网络运营与服务器维护。
判断服务器负载高低确定卡机原因

转自:http://blog.sina.com.cn/s/blog_402b8a190100c72k.html


        有的时候顾客或者网吧业主总是说卡卡卡,让代理心烦意乱。
        代理自己心里也没底到底是哪个环节出的问题。

        今天我们就从如何判断服务器负载高低开始先确定我们自己做的这块是否存在问题。


第一步:登陆linux(telnet 192.168.1.**) 运行 top 命令
运行之后如图所示: (bwm d)(fdisk -l)( hdparm -t /dev/sd*(*=a,b,c....))
接下来我详细解释各数值的意思:
此命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。
top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48
Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.3% us, 1.0% sy, 0.0% ni, 98.7% id, 0.0% wa, 0.0% hi, 0.0% si
Mem: 191272k total, 173656k used, 17616k free, 22052k buffers
Swap: 192772k total, 0k used, 192772k free, 123988k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1379 root 16 0 7976 2456 1980 S 0.7 1.3 0:11.03 sshd
14704 root 16 0 2128 980 796 R 0.7 0.5 0:02.72 top
1 root 16 0 1992 632 544 S 0.0 0.3 0:00.90 init
2 root 34 19 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/0

3 root RT 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/0


统计信息区

前五行是系统整体的统计信息。第一行是任务队列信息,同 uptime 命令的执行结果。其内容如下:

01:06:48 当前时间
up 1:22 系统运行时间,格式为时:分
1 user 当前登录用户数
 load average: 0.06, 0.60, 0.48 系统负载,即任务队列的平均长度。
 三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

第二、三行为进程和CPU的信息。当有多个CPU时,这些内容可能会超过两行。内容如下:
Tasks: 29 total 进程总数
1 running 正在运行的进程数
28 sleeping 睡眠的进程数
0 stopped 停止的进程数
0 zombie 僵尸进程数
Cpu(s): 0.3% us 用户空间占用CPU百分比
1.0% sy 内核空间占用CPU百分比
0.0% ni 用户进程空间内改变过优先级的进程占用CPU百分比
98.7% id 空闲CPU百分比
0.0% wa 等待输入输出的CPU时间百分比
0.0% hi

0.0% si


最后两行为内存信息。内容如下:
Mem: 191272k total 物理内存总量
173656k used 使用的物理内存总量
17616k free 空闲内存总量
22052k buffers 用作内核缓存的内存量
Swap: 192772k total 交换区总量
0k used 使用的交换区总量
192772k free 空闲交换区总量
123988k cached 缓冲的交换区总量。
内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖,该数值即为这些内容已存在于内存中的交换区的大小。

相应的内存再次被换出时可不必再对交换区写入。


进程信息区
统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。
序号 列名 含义
a PID 进程id
b PPID 父进程id
c RUSER Real user name
d UID 进程所有者的用户id
e USER 进程所有者的用户名
f GROUP 进程所有者的组名
g TTY 启动进程的终端名。不是从终端启动的进程则显示为 ?
h PR 优先级
i NI nice值。负值表示高优先级,正值表示低优先级
j P 最后使用的CPU,仅在多CPU环境下有意义
k %CPU 上次更新到现在的CPU时间占用百分比
l TIME 进程使用的CPU时间总计,单位秒
m TIME+ 进程使用的CPU时间总计,单位1/100秒
n %MEM 进程使用的物理内存百分比
o VIRT 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
p SWAP 进程使用的虚拟内存中,被换出的大小,单位kb。
q RES 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
r CODE 可执行代码占用的物理内存大小,单位kb
s DATA 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
t SHR 共享内存大小,单位kb
u nFLT 页面错误次数
v nDRT 最后一次写入到现在,被修改过的页面数。
w S 进程状态。
D=不可中断的睡眠状态
R=运行
S=睡眠
T=跟踪/停止
Z=僵尸进程
x COMMAND 命令名/命令行
y WCHAN 若该进程在睡眠,则显示睡眠中的系统函数名
z Flags 任务标志,参考 sched.h
默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。
更改显示内容:
1。 通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。
2。 按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。
3。 按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。

然后查看网络流量
登陆linux运行bwm命令如果所示

按D键单看磁盘读写速度
如果负载不高,网络流量不大,然后再测试磁盘速度 运行命令 hdpam -t /dev/sd*(*=a,b,c....)
速度参考:
sata 7200.10 以下的 70M+-5M
sata7200.11 120M+-10M
SCSI 10K 73G 146G 90M+-5M
sas 15k 73g 146g 120M+-5M
SAS r0 2阵列 240M+-10M
如果磁盘速度也正常.那就可以判断出,问题不在服务器上.
在满座的时候测试磁盘速度快或者慢都不能说明问题
一般的满座的时候,并发的机器多,磁盘速度可能很低,几兆都是可能的.但是如果工作站感觉不卡就没必要理会.
<think>嗯,用户想了解Linux系统中CPU负载的本质原理和工作机制。这个问题需要从操作系统调度和资源监控的角度来解释。用户可能是一位系统管理员或开发人员,正在排查服务器性能问题。从提问的专业程度看,ta对Linux系统有一定基础,但需要更深入理解负载指标的计算逻辑。这类知识对性能调优和容量规划都很关键。参考提供的引用材料,CPU负载实际上反映的是处于可运行状态的进程数量。引用[3]提到Linux会定时统计运行队列中running和uninterruptible状态的进程数量。这里有个重要概念:负载值不仅包含正在使用CPU的进程,还包括等待CPU的进程(running状态)以及等待I/O等不可中断操作的进程(uninterruptible状态)。多核处理器的负载计算需要特别注意。引用[1]解释得很清楚:对于N核系统,负载值N表示所有核心刚好满载。引用[5]的示例显示当4核系统负载达到5.99时,说明存在进程排队等待CPU资源的情况。关于监控工具,引用[4]提到的mpstat和pidstat是实用工具。结合引用[2]对CPU时间分类的说明,可以理解负载高低与CPU使用率不一定正相关——比如大量进程卡在I/O等待时(iowait高),负载会上升但CPU可能空闲。需要向用户强调几个关键点:1)负载是进程队列长度的移动平均值;2)uninterruptible状态进程会贡献负载值;3)负载阈值应参考CPU核心数。最后通过具体命令示例帮助ta实际操作验证。</think>理解Linux系统中CPU负载的本质原理需要从操作系统调度机制和统计方法切入。以下是核心机制分析: ### 一、负载的本质定义 CPU负载(Load Average)**本质是统计系统中处于可运行状态(Runnable)和不可中断睡眠状态(Uninterruptible Sleep)的进程数量**: 1. **可运行进程**:正在使用CPU或等待CPU调度的进程(`TASK_RUNNING`状态) 2. **不可中断进程**:通常由I/O阻塞引起(如磁盘读写),进程不占用CPU但无法被唤醒(`TASK_UNINTERRUPTIBLE`状态) > 关键特性:负载值包含I/O等待任务,因此**高负载≠高CPU利用率**(如磁盘瓶颈时负载飙升而CPU空闲)[^3] ### 二、负载的计算原理 1. **数据采集** Linux内核定时(每5Hz)采样每个CPU的运行队列: $$ \text{瞬时负载} = \text{RUNNING进程数} + \text{UNINTERRUPTIBLE进程数} $$ 2. **指数衰减移动平均** 采用EMA算法平滑瞬时波动,计算三个时间窗口: $$ \text{Load}(t) = \text{Load}(t-1) \times e^{-\lambda} + n \times (1 - e^{-\lambda}) $$ - $\lambda$ 为衰减因子(1分钟$\lambda=1/5$,5分钟$\lambda=1/35$) - $n$ 为当前采样值 > 此算法赋予近期数据更高权重[^3] ### 三、多核处理器的负载意义 - **负载阈值**:理想负载 ≤ CPU逻辑核心数 *示例*:4核系统负载≥4表示资源饱和(如引用[5]中4核负载5.99即过载) - **核心等效性**:负载不区分核心物理结构 $$ 2 \times 4核 = 4 \times 2核 = 8 \times 1核 $$ 在负载计算中等效于8个逻辑核心[^1] ### 四、负载与CPU使用率的区别 | **指标** | 统计对象 | 关联场景 | |----------------|--------------------------|-----------------------| | CPU负载 | 排队任务总量 | I/O阻塞、进程竞争 | | CPU使用率 | 时间片占用比例 | 计算密集型任务 | ```bash # 监控工具对比(引用[4]): mpstat -P ALL 1 # 查看各核使用率 cat /proc/loadavg # 获取1/5/15分钟负载 ``` ### 五、关键影响因素 1. **CPU竞争**:进程数超出核心数导致排队 2. **I/O瓶颈**:磁盘/NFS响应慢积累`TASK_UNINTERRUPTIBLE`进程 3. **中断风暴**:高频硬件中断抢占CPU资源 4. **锁竞争**:进程因互斥锁阻塞 > ⚠️ **异常负载诊断**:当负载 > 2倍核心数且CPU利用率低时,需检查`dstat -wa`中的`iowait`值或`pidstat -d`的I/O阻塞进程[^4] ### 六、运维实践建议 - **健康阈值**:长期负载 > 0.7 × 核心数需扩容(引用[2]) - **容器化环境**:Cgroups限制可能导致负载统计失真 - **云环境**:虚拟化层调度延迟可能虚增负载 --- ### 相关问题 1. 如何诊断Linux系统中高负载但低CPU使用率的根本原因? 2. 在Kubernetes集群中,容器化的负载统计与传统物理机有何差异? 3. 有哪些工具可以实时监控Linux系统的负载来源(如perf、systemtap)? 4. 如何优化不可中断进程(如D状态进程)导致的负载飙升问题? [^1]: 多核系统负载阈值取决于逻辑核心总数,与核心物理分布无关 [^2]: CPU使用率反映时间片占用比例,而负载反映任务队列长度 [^3]: 负载统计包含RUNNING和UNINTERRUPTIBLE状态进程的EMA值 [^4]: mpstat/pidstat工具可分析负载与CPU使用率的关联性 [^5]: 当负载持续超过核心数时表明系统过载
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值