C++性能分析

本文详细介绍代码性能优化的方法,包括性能对比原则、分析工具使用、计算机性能要素、编译器优化技巧及常见代码优化实践,旨在帮助开发者提升软件性能。

目录

一,性能对比

二,性能分析工具

1,VS性能分析工具

2,汇编分析工具

三,计算机性能

1,存储访问

2,处理器性能加速

3,系统调用开销

4,时钟函数

四,编译器优化

1,总体特点

2,指令重排

3,防优化技巧

五,性能提升编码技巧

1,二维数组的访问

2,大批量内存拷贝

3,多分支语句的顺序

4,循环嵌套条件语句

六,关键字

1,volatile

七,其他经验总结


一,性能对比

我们经常对比2份代码的性能,首先要注意控制这几点:

(1)2份代码的功能完全相同

(2)使用相同的测试环境(windows还是linux,编译器等)

(3)使用相同的性能测试代码

(4)使用相同的编译优化级别(VS开release模式)

对于简单的情况,编译器很可能已经做了大量的优化,使得对比结果并不明显。

但是,这却并不代表我们写代码可以完全依赖编译器。

代码的两种写法,在不同程度的编译优化下,哪种写法更快可能没有定论。

例如下面的“循环嵌套条件语句”,clion上运行的是1770 1501,visual studio上运行的是849 1228,感觉应该是vs做的编译优化比较多,简单的if语句可能被优化掉了。

我在windows机器上写C++代码,用cmake编译运行,用clock函数计时,用来判断程序运行时间。

性能测试代码

        auto s1 = clock();
		
        test();

		auto e1 = clock();
		cout << endl << e1 - s1;

二,性能分析工具

1,VS性能分析工具

点击 分析、性能探测器、更改目标

点击 可执行文件、开始、CPU采用、下一步、可执行文件、下一步

 填写路径,完成。

2,汇编分析工具

在线汇编

左边可以用不同语言写代码

右边可以选择不同的环境和编译器版本,还支持输入编译选项。

三,计算机性能

1,存储访问

连续的不跳跃的存储访问是最快的,这对程序性能影响很大。

2,处理器性能加速

处理器性能加速:指令乱序执行、流水线、并发

条件分支代码可能打乱流水线,造成性能下降。

3,系统调用开销

read write open close mmap 耗时比较长

4,时钟函数

Linux中的时钟函数

Windows中的时钟函数

四,编译器优化

1,总体特点

2,指令重排

好处是可以提高指令并行度。

int x,y,a;
int main()
{
	x=a;
    y=2;
	return 0;
}

然而从gcc8开始,这个代码在O2下是不进行指令重排的,不知道为啥。 

3,防优化技巧

五,常见代码的性能

1,二维数组的访问

二维数组的访问最好不要跳内存。

#include <stdio.h>
#include "time.h"

#define N 1000000
#define M 1000

typedef struct
{
    int a[N];
}Node;

#define OUTCLOCK \
    printf("%d ",clock()-theClock); \
    theClock=clock();

int main()
{
    clock_t theClock=clock();
    Node *p=(Node *)malloc(sizeof(Node)*M);
    OUTCLOCK
    for(int i=0;i<M;i++)for(int j=0;j<N;j++)p[i].a[j]=i*j+1;
    OUTCLOCK
    for(int j=0;j<N;j++)for(int i=0;i<M;i++)p[i].a[j]=i*j+1;
    OUTCLOCK
    return 0;
}

运行结果:

0 2339 2234

单位是毫秒

2,大批量内存拷贝

大批量内存拷贝,用memcpy代替赋值语句

int main()
{
    clock_t theClock=clock();
    Node *p=(Node *)malloc(sizeof(Node)*M);
    int *p2=(int *)malloc(sizeof(int)*N*M);
    OUTCLOCK
    for(int i=0;i<M;i++)for(int j=0;j<N;j++)p2[i*N+j]=p[i].a[j];
    OUTCLOCK
    memcpy(p2,p, sizeof(int)*N*M);
    OUTCLOCK
    return 0;
}

运行结果:

0 2811 276

3,多分支语句的顺序

形如如下的代码:

    if(con1)do1;
    else if(con2)do2;
    else if(con3)do3;
    else do4;

假设do语句里面没有continue、break、goto、return语句,那么这段代码的执行时间分为con判断时间、do语句时间两部分。

其中,无论这些分支如何调整顺序,都不影响do语句时间,所以只需要考虑con判断时间。

假设各个分支的命中概率分别为p1 p2 p3 p4,判断时间(单个con表达式的执行时间)分别为t1 t2 t3 t4

则con判断时间T=p1t1 + p2(t1+t2) + p3(t1+t2+t3) + p4(t1+t2+t3+t4)

显然当p1/t1 > p2/t2 > p3/t3 > p4/t4时,T取到最小值。

也就是说,命中率高的分支往前放,单个con表达式执行时间较长的往后放(这种比如con表达式包含了执行一个函数)

4,循环嵌套条件语句

如果循环里面有if语句,无论是对程序员还是对cpu来说,都是一个复杂的行为。

#include <stdio.h>
#include "time.h"

#define N 1000000
#define M 1000

int x[M],y[M];

#define OUTCLOCK \
    printf("%d ",clock()-theClock); \
    theClock=clock();

int main()
{
    for(int i=0;i<M;i++)x[i]=i*i,y[i]=i*i*i+i*3+1;
    int d,s=0;
    scanf("%d",&d);
    clock_t theClock=clock();
    for(int i=0;i<N;i++)for(int i=0;i<M;i++)if(x[i]==d)s+=y[i];
    OUTCLOCK
    for(int i=0;i<N;i++)for(int i=0;i<M;i++)s+=((x[i]==d)?y[i]:0);
    OUTCLOCK
    return 0;
}

运行结果:

250000
1770 1501

可此可见,让条件只控制数据不控制指令跳转,对于CPU来说是很友好的。

5,虚函数

虚函数比较慢的原因有两个,一是需要通过函数指针来调用,二是通常会防止内联。

所以,CRTP模式会比继承模式要快。

6,volatile

普通代码:

#include<iostream>
using namespace std;
int main()
{
	char ch[80];
    for(int i=0;i<80;i++)ch[i]=0; //核心代码
    for(int i=0;i<80;i++)cout<<ch[i];
	return 0;
}

其中赋值的那一行是核心代码。

汇编:

汇编结果是5次操作,每次操作16个字节。

加了volatile的代码:

#include<iostream>
using namespace std;
int main()
{
	volatile char ch[80];
    for(int i=0;i<80;i++)ch[i]=0; //核心代码
    for(int i=0;i<80;i++)cout<<ch[i];
	return 0;
}

 汇编:

加了volatile的代码,汇编结果就是80次的循环了。

所以, volatile是对性能有负面影响的。

六,经验总结

1,异常性能

功能相同,代码差不多,但性能差异明显,有可能是算法写错了。

实例:杀手数独

错误代码中漏了规则,即少了DFS的剪枝条件,或许即使少了条件也有唯一答案,但搜索效率一定会降低。

2,性能优化手段总结

(来自吴咏炜老师)

3,增加Cache命中率

(1)增加Cache块大小

(2)增加Cache容量

(3)增加Cache相联度

(4)way预测

(5)编译优化

4,并行处理

(1)指令级并行

流水线、超标量、超长指令字、乱序执行

(2)向量数据并行

向量架构、多媒体SIMD指令集拓展、脉动阵列、gpu

(3)线程级并行

多处理机,多核,多线程

google-perftools 简介 google-perftools 是一款针对 C/C++ 程序的性能分析工具,它是一个遵守 BSD 协议的开源项目。使用该工具可以对 CPU 时间片、内存等系统资源的分配和使用进行分析,本文将重点介绍如何进行 CPU 时间片的剖析。 google-perftools 对一个程序的 CPU 性能剖析包括以下几个步骤。 1. 编译目标程序,加入对 google-perftools 库的依赖。 2. 运行目标程序,并用某种方式启动 / 终止剖析函数并产生剖析结果。 3. 运行剖结果转换工具,将不可读的结果数据转化成某种格式的文档(例如 pdf,txt,gv 等)。 安装 您可以在 google-perftools 的网站 (http://code.google.com/p/google-perftools/downloads/list) 上下载最新版的安装包。为完成步骤 3 的工作,您还需要一个将剖析结果转化为程序员可读文档的工具,例如 gv(http://www.gnu.org/software/gv/)。 编译与运行 您需要在原有的编译选项中加入对 libprofiler.so 的引用,这样在目标程序运行时会加载工具的动态库。例如本例中作者的系统中,libprofiler.so 安装在"/usr/lib"目录下,所以需要在 makefile 文件中的编译选项加入“-L/usr/lib -lprofiler”。 google-perftools 需要在目标代码的开始和结尾点分别调用剖析模块的启动和终止函数,这样在目标程序运行时就可以对这段时间内程序实际占用的 CPU 时间片进行统计和分析。工具的启动和终止可以采用以下两种方式。 a. 使用调试工具 gdb 在程序中手动运行性能工具的启动 / 终止函数。 gdb 是 Linux 上广泛使用的调试工具,它提供了强大的命令行功能,使我们可以在程序运行时插入断点并在断点处执行其他函数。具体的文档请参照 http://www.gnu.org/software/gdb/,本文中将只对用到的几个基本功能进行简单介绍。使用以下几个功能就可以满足我们性能调试的基本需求,具体使用请参见下文示例。 命令 功能 ctrl+c 暂停程序的运行 c 继续程序的运行 b 添加函数断点(参数可以是源代码中的行号或者一个函数名) p 打印某个量的值或者执行一个函数调用 b. 在目标代码中直接加入性能工具函数的调用,该方法就是在程序代码中直接加入调试函数的调用。 两种方式都需要对目标程序重新编译,加入对性能工具的库依赖。对于前者,他的好处是使用比较灵活,但工具的启动和终止依赖于程序员的手动操作,常常需要一些暂停函数(比如休眠 sleep)的支持才能达到控制程序的目的,因此精度可能受到影响。对于后者,它需要对目标代码的进行修改,需要处理函数声明等问题,但得到的结果精度较高,缺点是每次重新设置启动点都需要重新编译,灵活度不高,读者可以根据自己的实际需求采用有效的方式。 示例详解 该程序是一个简单的例子,文中有两处耗时的无用操作,并且二者间有一定的调用关系。 清单 1. 示例程序 void consumeSomeCPUTime1(int input){ int i = 0; input++; while(i++ < 10000){ i--; i++; i--; i++; } }; void consumeSomeCPUTime2(int input){ input++; consumeSomeCPUTime1(input); int i = 0; while(i++ < 10000){ i--; i++; i--; i++; } }; int stupidComputing(int a, int b){ int i = 0; while( i++ < 10000){ consumeSomeCPUTime1(i); } int j = 0; while(j++ < 5000){ consumeSomeCPUTime2(j); } return a+b; }; int smartComputing(int a, int b){ return a+b; }; void main(){ int i = 0; printf("reached the start point of performance bottle neck\n"); sleep(5); //ProfilerStart("CPUProfile"); while( i++ MyProfile.pdf 转换后产生的结果文档如下图。图中的数字和框体的大小代表了的某个函数的运行时间占整个剖析时间的比例。由代码的逻辑可知,stupidComputing,stupidComputing2 都是费时操作并且它们和 consumeSomeCPUTime 存在着一定的调用关系。 图 1. 剖析结果 结束语 本文介绍了一个 Linux 平台上的性能剖析工具 google-perftools,并结合实例向读者展示了如何使用该工具配置、使用及分析性能瓶颈。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值