你的C++代码有多慢?使用 perf 精准揪出耗时函数!

你的C++代码有多慢?使用 perf 精准揪出耗时函数!

一、背景

想象一下,你精心打造了一辆跑车,引擎强劲,车身轻盈,但轮胎却磨损严重,严重影响了速度。同样的道理,即使你的C++代码架构精巧,算法高效,但如果某些函数运行速度极慢,就像那辆跑车的磨损轮胎一样,会严重拖累整个程序的性能。

很多时候,程序的性能瓶颈并非源于整体架构设计上的缺陷,而是隐藏在某些不起眼的函数之中。这些函数或许只是代码中的一小部分,但它们却像“吞金兽”一样,消耗着大量的CPU时间,导致整个程序的效率低下。因此,精准地定位这些耗时函数,并针对性地进行优化,是提升C++程序性能的关键。

然而,程序运行缓慢,但你却无从下手优化?可能花费大量时间在代码的各个角落里寻找性能瓶颈,一遍遍地检查循环、算法和数据结构,却始终找不到问题所在。这就像大海捞针一样,效率低下且非常搞心态。

传统的调试方法,例如打印日志或使用简单的计时器,往往只能提供粗略的性能信息,难以精准地定位到具体的耗时函数。特别是当程序庞大复杂,函数调用层层嵌套时,这种困难会被进一步放大。盲目地进行代码优化,不仅耗时费力,而且可能收效甚微,甚至可能引入新的bug。因此,迫切需要一种高效、精准的方法来帮助我们快速找到程序中的耗时函数。

二、perf 工具简介

perf 是一个内建于 Linux 内核的强大性能分析工具。它能够对程序进行细致的性能剖析,精确到函数级别,帮助识别并解决程序中的性能瓶颈。通过分析 CPU 周期、缓存未命中、分支预测失败等指标,以及函数的执行时间,perf 提供了直观的数据和可视化报告 (例如火焰图),从而快速找到代码中耗时的部分。
在这里插入图片描述

perf 工具的核心功能依赖于 perf recordperf report 两个主要命令。

perf record 命令负责收集程序运行时的性能数据。它会对目标程序进行采样,记录下程序执行过程中发生的各种事件,例如 CPU 周期、缓存未命中、函数调用等等。这些数据会被存储在一个名为 perf.data (或用户指定文件名) 的文件中。 关键参数:

  • -a: 分析所有进程(系统范围)
  • -p <PID>: 分析指定进程 ID 的程序
  • -g: 收集调用栈信息,用于生成火焰图。这是进行函数级性能分析的关键参数。
  • -e <event>: 指定要监控的硬件或软件事件 (例如 cycles, cache-misses, instructions)。

perf report 命令负责分析 perf record 命令收集到的性能数据,并将结果以用户友好的方式呈现出来。 它能够根据收集的数据生成各种报告,包括文本格式的报告和可视化的火焰图。 关键参数包括:

  • -g: 显示调用栈信息,与 perf record -g 配合使用。
  • --stdio: 将报告输出到标准输出。
  • --call-graph: 显示函数调用图。

我前面有一篇文章总结了perf工具的全部功能与操作技巧,这里就不再一一赘述,本文核心目标是如何使用perf工具快速揪出耗时函数。

三、使用 perf 分析 C++ 代码

#include <iostream>
#include <vector>
#include <chrono>
#include <thread>
#include <random>
#include <thread>

// Function A: Simple computation
int functionA(int n) 
{
    int sum = 0;
    for (int i = 0; i < n; ++i) {
        sum += i;
    }
    std::cout << "Function A result: " << sum << std::endl;
    return sum;
}

// Function B: Vector manipulation
std::vector<int> functionB(int n) 
{
    std::vector<int> vec(n);
    std::random_device rd;
    std::mt19937 gen(rd());
    std::uniform_int_distribution<> distrib(1, 100);
    for (int i = 0; i < n; ++i) {
        vec[i] = distrib(gen);
    }
    std::cout << "Function B vector size: " << vec.size() << std::endl;
    return vec;
}


// Function C:  Simulates I/O-bound operation
void functionC(int n) 
{
    std::this_thread::sleep_for(std::chrono::milliseconds(n));
}

int main() {
    int n = 1000000000; // Adjust this value to change the workload

    auto start = std::chrono::high_resolution_clock::now();

#if 0
    int resultA = functionA(n);
    std::vector<int> resultB = functionB(n);
    functionC(500); // Simulate a 500ms I/O operation
#else
    std::thread th(functionA, n);
    std::thread th2(functionB, n);
    std::thread th3(functionC, 500);
    th.join();
    th2.join();
    th3.join();
#endif

    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start);

    std::cout << "Total execution time: " << duration.count() << " ms" << std::endl;

    return 0;
}

这个例子包含三个函数:functionA 进行简单的累加运算,functionB 创建并填充一个向量,functionC 模拟一个 I/O 操作,等待 500 毫秒。可以通过调整 n 值来改变程序的工作负载。

编译后,先执行程序让其运行起来,比如:

./test

然后使用 perf top -p $(pidof firefox) 运行 perf 进行数据收集,可以收集到类似如下的内容:

Samples: 31K of event 'cycles:u', 4000 Hz, Event count (approx.): 27011663936 lost: 0/0 drop: 0/0
Overhead  Shared Object     Symbol
  25.80%  test              [.] std::mersenne_twister_engine<unsigned long, 32ul, 624ul, 397ul, 31ul, 2567483615ul, 11ul, 42949
  22.43%  test              [.] std::uniform_int_distribution<int>::operator()<std::mersenne_twister_engine<unsigned long, 32ul
  14.59%  test              [.] std::uniform_int_distribution<int>::_S_nd<unsigned long, std::mersenne_twister_engine<unsigned
   9.39%  test              [.] functionB
   8.67%  test              [.] std::uniform_int_distribution<int>::param_type::a
   6.92%  test              [.] std::mersenne_twister_engine<unsigned long, 32ul, 624ul, 397ul, 31ul, 2567483615ul, 11ul, 42949
   5.74%  test              [.] std::uniform_int_distribution<int>::param_type::b
   3.20%  test              [.] std::uniform_int_distribution<int>::operator()<std::mersenne_twister_engine<unsigned long, 32ul
   3.14%  test              [.] std::vector<int, std::allocator<int> >::operator[]
   0.09%  test              [.] std::__fill_a1<int*, int>
   0.02%  [kernel]          [k] 0xffffffff9d000f30

说明:

列名含义
Overhead耗时占比,以百分比展示
Shared Object进程对象
Symbol具体到某个函数

perrf打印的信息中可以看出,整个进程主要耗时在functionBstd::uniform_int_distribution<int>函数调用,因此,我们就可以查看这个函数是否有优化空间。这就可以达到揪出耗时函数的目的,至于能不能优化,能优化多少,就看使用场景而定了。

特别说明,这个perf结合top方式不局限于Debug模式,Release模式同样也可以使用,这就非常利于生产环境的分析。

四、总结

利用Linux系统自带的性能分析工具perf来精准定位C++代码中的耗时函数,从而有效提升程序性能。整个过程可以概括为以下几个步骤:

  1. 编译并运行待分析的C++程序;
  2. 使用perf top -p PID命令收集程序运行时的性能数据,包括调用栈信息。
  3. 分析报告,Overhead列清晰地展示了每个函数的耗时占比,方便快速识别性能瓶颈。

perf工具的强大之处在于其能够深入到函数级别进行性能分析,这比传统的日志打印或简单计时器方法更加精准高效,尤其在处理大型复杂项目时优势显著。它不仅能分析CPU周期,还可以分析缓存未命中、分支预测失败等多种性能指标,为开发者提供更全面的性能视图。

除了perf之外,还有其他一些性能分析工具,例如Valgrind、gprof等。
在这里插入图片描述

### 关于ArcGIS License Server无法启动的解决方案 当遇到ArcGIS License Server无法启动的情况,可以从以下几个方面排查并解决问题: #### 1. **检查网络配置** 确保License Server所在的计算机能够被其他客户端正常访问。如果是在局域网环境中部署了ArcGIS Server Local,则需要确认该环境下的网络设置是否允许远程连接AO组件[^1]。 #### 2. **验证服务状态** 检查ArcGIS Server Object Manager (SOM) 的运行情况。通常情况下,在Host SOM机器上需将此服务更改为由本地系统账户登录,并重启相关服务来恢复其正常工作流程[^2]。 #### 3. **审查日志文件** 查看ArcGIS License Manager的日志记录,寻找任何可能指示错误原因的信息。这些日志可以帮助识别具体是什么阻止了许可服务器的成功初始化。 #### 4. **权限问题** 确认用于启动ArcGIS License Server的服务账号具有足够的权限执行所需操作。这包括但不限于读取/写入特定目录的权利以及与其他必要进程通信的能力。 #### 5. **软件版本兼容性** 保证所使用的ArcGIS产品及其依赖项之间存在良好的版本匹配度。不一致可能会导致意外行为完全失败激活license server的功能。 #### 示例代码片段:修改服务登录身份 以下是更改Windows服务登录凭据的一个简单PowerShell脚本例子: ```powershell $serviceName = "ArcGISServerObjectManager" $newUsername = ".\LocalSystemUser" # 替换为实际用户名 $newPassword = ConvertTo-SecureString "" -AsPlainText -Force Set-Service -Name $serviceName -StartupType Automatic New-ServiceCredential -ServiceName $serviceName -Account $newUsername -Password $newPassword Restart-Service -Name $serviceName ``` 上述脚本仅作为示范用途,请依据实际情况调整参数值后再实施。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lion 莱恩呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值