在对互联网服务进行服务端性能测试时,主要关注两方面的性能指标:
业务指标:如吞吐量(QPS、TPS)、响应时间(RT)、并发数、业务成功率等
资源指标:如CPU、内存、Disk I/O、Network I/O等资源的消耗情况
本文主要介绍一些广泛适用的、基本的资源指标以及这些指标在Linux服务器的获取方式。
关于CPU资源,有三个重要概念是我们需要关注的:使用率、运行队列和上下文切换。
CPU使用率(CPU Utilization Percentages):有进程处于Running状态的时间/总时间。
性能测试指标中,CPU使用率通常用us + sy来计算,其可接受上限通常在70%~80%。另外需要注意的是,在测试过程中,如果sy的值长期大于25%,应该关注in(系统中断)和cs(上下文切换)的数值,并根据被测应用的实现逻辑来分析是否合理。
运行队列进程数(Processes on run queue):Running状态 + Waiting状态的进程数,展示了正在运行和等待CPU资源的任务数,可以看作CPU的工作清单,是判断CPU资源是否成为瓶颈的重要依据。vmstat通过r的值来体现:
r: 可运行进程数,包括正在运行(Running)和已就绪等待运行(Waiting)的。
如果r的值等于系统CPU总核数,则说明CPU已经满负荷。在负载测试中,其可接受上限通常不超过CPU核数的2倍。
上下文切换(Context Switches):简单来说,context指CPU寄存器和程序计数器在某时间点的内容,(进程)上下文切换即kernel挂起一个进程并将该进程此时的状态存储到内存,然后从内存中恢复下一个要执行的进程原来的状态到寄存器,从其上次暂停的执行代码开始继续执行至频繁的上下文切换将导致sy值增长。vmstat通过cs的值来体现:
另外还有一个指标用来作为系统在一段时间内的负载情况的参考:
平均负载Load Average:在UNIX系统中,Load是对系统工作量的度量。Load取值有两种情况,多数UNIX系