你的C++代码有多慢?使用 perf 精准揪出耗时函数!
一、背景
想象一下,你精心打造了一辆跑车,引擎强劲,车身轻盈,但轮胎却磨损严重,严重影响了速度。同样的道理,即使你的C++代码架构精巧,算法高效,但如果某些函数运行速度极慢,就像那辆跑车的磨损轮胎一样,会严重拖累整个程序的性能。
很多时候,程序的性能瓶颈并非源于整体架构设计上的缺陷,而是隐藏在某些不起眼的函数之中。这些函数或许只是代码中的一小部分,但它们却像“吞金兽”一样,消耗着大量的CPU时间,导致整个程序的效率低下。因此,精准地定位这些耗时函数,并针对性地进行优化,是提升C++程序性能的关键。
然而,程序运行缓慢,但你却无从下手优化?可能花费大量时间在代码的各个角落里寻找性能瓶颈,一遍遍地检查循环、算法和数据结构,却始终找不到问题所在。这就像大海捞针一样,效率低下且非常搞心态。
传统的调试方法,例如打印日志或使用简单的计时器,往往只能提供粗略的性能信息,难以精准地定位到具体的耗时函数。特别是当程序庞大复杂,函数调用层层嵌套时,这种困难会被进一步放大。盲目地进行代码优化,不仅耗时费力,而且可能收效甚微,甚至可能引入新的bug。因此,迫切需要一种高效、精准的方法来帮助我们快速找到程序中的耗时函数。
二、perf 工具简介
perf
是一个内建于 Linux 内核的强大性能分析工具。它能够对程序进行细致的性能剖析,精确到函数级别,帮助识别并解决程序中的性能瓶颈。通过分析 CPU 周期、缓存未命中、分支预测失败等指标,以及函数的执行时间,perf
提供了直观的数据和可视化报告 (例如火焰图),从而快速找到代码中耗时的部分。
perf
工具的核心功能依赖于 perf record
和 perf report
两个主要命令。
perf record
命令负责收集程序运行时的性能数据。它会对目标程序进行采样,记录下程序执行过程中发生的各种事件,例如 CPU 周期、缓存未命中、函数调用等等。这些数据会被存储在一个名为 perf.data
(或用户指定文件名) 的文件中。 关键参数:
-a
: 分析所有进程(系统范围)-p <PID>
: 分析指定进程 ID 的程序-g
: 收集调用栈信息,用于生成火焰图。这是进行函数级性能分析的关键参数。-e <event>
: 指定要监控的硬件或软件事件 (例如cycles
,cache-misses
,instructions
)。
perf report
命令负责分析 perf record
命令收集到的性能数据,并将结果以用户友好的方式呈现出来。 它能够根据收集的数据生成各种报告,包括文本格式的报告和可视化的火焰图。 关键参数包括:
-g
: 显示调用栈信息,与perf record -g
配合使用。--stdio
: 将报告输出到标准输出。--call-graph
: 显示函数调用图。
我前面有一篇文章总结了perf
工具的全部功能与操作技巧,这里就不再一一赘述,本文核心目标是如何使用perf
工具快速揪出耗时函数。
三、使用 perf 分析 C++ 代码
#include <iostream>
#include <vector>
#include <chrono>
#include <thread>
#include <random>
#include <thread>
// Function A: Simple computation
int functionA(int n)
{
int sum = 0;
for (int i = 0; i < n; ++i) {
sum += i;
}
std::cout << "Function A result: " << sum << std::endl;
return sum;
}
// Function B: Vector manipulation
std::vector<int> functionB(int n)
{
std::vector<int> vec(n);
std::random_device rd;
std::mt19937 gen(rd());
std::uniform_int_distribution<> distrib(1, 100);
for (int i = 0; i < n; ++i) {
vec[i] = distrib(gen);
}
std::cout << "Function B vector size: " << vec.size() << std::endl;
return vec;
}
// Function C: Simulates I/O-bound operation
void functionC(int n)
{
std::this_thread::sleep_for(std::chrono::milliseconds(n));
}
int main() {
int n = 1000000000; // Adjust this value to change the workload
auto start = std::chrono::high_resolution_clock::now();
#if 0
int resultA = functionA(n);
std::vector<int> resultB = functionB(n);
functionC(500); // Simulate a 500ms I/O operation
#else
std::thread th(functionA, n);
std::thread th2(functionB, n);
std::thread th3(functionC, 500);
th.join();
th2.join();
th3.join();
#endif
auto end = std::chrono::high_resolution_clock::now();
auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start);
std::cout << "Total execution time: " << duration.count() << " ms" << std::endl;
return 0;
}
这个例子包含三个函数:functionA
进行简单的累加运算,functionB
创建并填充一个向量,functionC
模拟一个 I/O 操作,等待 500 毫秒。可以通过调整 n
值来改变程序的工作负载。
编译后,先执行程序让其运行起来,比如:
./test
然后使用 perf top -p $(pidof firefox)
运行 perf 进行数据收集,可以收集到类似如下的内容:
Samples: 31K of event 'cycles:u', 4000 Hz, Event count (approx.): 27011663936 lost: 0/0 drop: 0/0
Overhead Shared Object Symbol
25.80% test [.] std::mersenne_twister_engine<unsigned long, 32ul, 624ul, 397ul, 31ul, 2567483615ul, 11ul, 42949
22.43% test [.] std::uniform_int_distribution<int>::operator()<std::mersenne_twister_engine<unsigned long, 32ul
14.59% test [.] std::uniform_int_distribution<int>::_S_nd<unsigned long, std::mersenne_twister_engine<unsigned
9.39% test [.] functionB
8.67% test [.] std::uniform_int_distribution<int>::param_type::a
6.92% test [.] std::mersenne_twister_engine<unsigned long, 32ul, 624ul, 397ul, 31ul, 2567483615ul, 11ul, 42949
5.74% test [.] std::uniform_int_distribution<int>::param_type::b
3.20% test [.] std::uniform_int_distribution<int>::operator()<std::mersenne_twister_engine<unsigned long, 32ul
3.14% test [.] std::vector<int, std::allocator<int> >::operator[]
0.09% test [.] std::__fill_a1<int*, int>
0.02% [kernel] [k] 0xffffffff9d000f30
说明:
列名 | 含义 |
---|---|
Overhead | 耗时占比,以百分比展示 |
Shared Object | 进程对象 |
Symbol | 具体到某个函数 |
从perrf
打印的信息中可以看出,整个进程主要耗时在functionB
的std::uniform_int_distribution<int>
函数调用,因此,我们就可以查看这个函数是否有优化空间。这就可以达到揪出耗时函数的目的,至于能不能优化,能优化多少,就看使用场景而定了。
特别说明,这个perf
结合top
方式不局限于Debug
模式,Release
模式同样也可以使用,这就非常利于生产环境的分析。
四、总结
利用Linux系统自带的性能分析工具perf
来精准定位C++代码中的耗时函数,从而有效提升程序性能。整个过程可以概括为以下几个步骤:
- 编译并运行待分析的C++程序;
- 使用
perf top -p PID
命令收集程序运行时的性能数据,包括调用栈信息。 - 分析报告,
Overhead
列清晰地展示了每个函数的耗时占比,方便快速识别性能瓶颈。
perf
工具的强大之处在于其能够深入到函数级别进行性能分析,这比传统的日志打印或简单计时器方法更加精准高效,尤其在处理大型复杂项目时优势显著。它不仅能分析CPU周期,还可以分析缓存未命中、分支预测失败等多种性能指标,为开发者提供更全面的性能视图。
除了perf
之外,还有其他一些性能分析工具,例如Valgrind、gprof等。