最近做一个算法的GPU加速,发现实际上使用gcc的-O3(最高级编译优化)选项,可以获得很高的加速比,我的程序里达到了3倍的样子,有时效果甚至比GPU加速好。因此小小学习了下GNU的编译优化。 附言一句,在进行调试的时候,最好关闭编译优化,不然程序自动优化,执行的步骤可能稍有变化。 GNU编译器提供-O选项供程序优化使用: -O 提供基础级别的优化 -O2 提供更加高级的代码优化,会占用更长的编译时间 -O3 提供最高级的代码优化 不同的优化级别使用的优化技术也可以单独的应用于代码。 可以使用-f命令行选项引用每个 单独的优化技术。 1, 编译器优化级别1 在优化的第一个级别执行基础代码的优化。 这个级别试图执行9种单独的优化功能: -fdefer-pop: 这种优化技术与汇编语言代码在函数完成时如何进行操作有关。 一般 情况下, 函数的输入值被保存在堆栈中并且被函数访问。 函数返回时, 输入值还在 堆栈中。 一般情况下, 函数返回之后, 输入值被立即弹出堆栈。这样做会使堆栈中 的内容有些杂乱。 -fmerge-constans: 使用这种优化技术, 编译器试图合并相同的常量. 这一特性有 时候会导致很长的编译时间, 因为编译器必须分析c或者c++程序中用到的每个常量, 并且相互比较他们. -fthread-jumps: 使用这种优化技术与编译器如果处理汇编代码中的条件和非条件 分支有关。 在某些情况下, 一条跳转指令可能转移到另一条分支语句。 通过一连串 跳转, 编译器确定多个跳转之间的最终目标