27、编写高性能代码：共享对象、代码模型与优化策略-优快云博客

编写高性能代码：共享对象、代码模型与优化策略

1. 共享对象与代码模型

在编程中，局部变量的访问方式存在差异。小数组可以相对于指令指针寄存器 rip 进行访问，例如：

loc_small[0] = 42;
400599:   c6 05 20 0b 20 00 2a     mov     BYTE PTR [rip+0x200b20],0x2a

而局部大数组则是相对于全局偏移表（GOT）的起始地址来查找的，就像在大模型中那样：

loc_big[0] = 42;
4005a0:   48 b8 c0 97 d8 00 00     movabs     rax,0xd897c0
4005a7:   00 00 00
4005aa:   c6 04 02 2a              mov        BYTE PTR [rdx+rax*1],0x2a

2. 性能优化概述

要编写更快的代码，需要研究SSE（流式单指令多数据扩展）指令、编译器优化和硬件缓存的工作原理。但要注意，这只是一个入门介绍，不会让你立刻成为优化专家。

没有一种万能的技术能让所有代码都快速运行。硬件变得越来越复杂，即使是有经验的猜测也可能无法准确找出导致程序执行变慢的代码。因此，测试和性能分析是必不可少的，并且性能测量应该以可重复的方式进行，即详细描述环境信息，以便其他人能够复制实验条件并得到相似的结果。

3. 编译器优化

在编译过程中，有一些重要的优化操作，了解这些优化对于编写高质量代码至关重要。因为在编程中，常见的决策是在代码可读性和性能之间进行平衡，而了解优化知识有助于做出更好的决策。

3.1 快速语言的误区

有一种常见的误解认为编程语言决定了程序的执行速度，这是不正确的。更好、更有用的性能测试通常是高度专业化的，它们在非常特定的情况下测量性能，这使得我们不能轻易做出笼统的概括。所以，在描述性能时，最好详细描述场景和测试结果，以便其他人能够构建类似的系统并进行类似的测试，得到可比的结果。

例如，用C语言编写的程序可能会被用Java编写的执行类似操作的程序超越，但这与语言本身并无直接关系。典型的 malloc 实现难以预测执行时间，它通常依赖于当前堆的状态，如块的数量和堆的碎片化程度等，而且其执行时间很可能比在栈上分配内存要长。而在典型的Java虚拟机实现中，内存分配很快，因为Java的堆结构更简单，分配内存只是移动一个指针。然而，Java需要进行垃圾回收，这可能会使程序暂停一段时间。

如果一个Java程序在不进行垃圾回收的情况下（如分配内存、执行计算后直接退出），由于 malloc 的分配开销，它可能比C程序执行得更快。但如果在C中使用自定义的内存分配器，结果可能会截然不同。

此外，Java通常在运行时进行解释和编译，虚拟机可以根据程序的实际执行情况进行运行时优化，例如将经常连续执行的方法放在内存中相邻的位置，以便它们可以一起被缓存。而C语言的成本模型非常透明，编写代码时很容易想象会生成哪些汇编指令，相比之下，Java、C#等依赖运行时环境或提供多个额外抽象的语言更难预测。

3.2 一般建议

编程时通常不应该立即关注优化，过早优化有很多弊端：
- 大多数程序只有一小部分代码会被反复执行，这部分代码决定了程序的执行速度，优化其他部分可能效果甚微。可以使用性能分析工具（profiler）来找出这部分代码。
- 手动优化代码几乎总是会降低代码的可读性和可维护性。
- 现代编译器能够识别高级语言代码中的常见模式，并进行良好的优化，因为编译器开发者为此投入了大量的工作。

优化的关键往往是选择正确的算法，汇编级的低级优化通常效果不明显。例如，按索引访问链表元素很慢，因为需要从头开始遍历；而数组在按索引访问时更有优势，但在数组中插入元素则需要移动后续元素。

通常，简单、简洁的代码往往也是最有效的。如果性能不理想，首先使用性能分析工具找出执行最频繁的代码，然后尝试手动优化，检查是否有重复计算，尝试记忆和重用计算结果，研究汇编代码，看看强制内联某些函数是否有帮助。同时，要考虑硬件的局部性和缓存使用情况。

编译器优化可以通过编译器标志 -O0 、 -O1 、 -O2 、 -O3 、 -Os 进行控制，索引越大，启用的优化越多。也可以单独打开或关闭特定的优化选项。

3.3 省略栈帧指针

相关GCC选项： -fomit-frame-pointer
在某些情况下，不需要存储旧的 rbp 值并使用新的基值进行初始化，例如：
- 没有局部变量。
- 局部变量可以放入红色区域（red zone）且函数不调用其他函数。

但这样做也有缺点，即运行时保留的程序状态信息会减少，在程序崩溃并分析状态转储时会遇到麻烦，因为缺乏帧起始位置的信息。而且从性能角度来看，这种优化的效果通常可以忽略不计。

以下是一个展示如何展开栈并显示所有函数帧指针地址的代码示例：

// stack_unwind.c
void unwind();
void f( int count ) {
    if ( count ) f( count-1 ); else unwind();
}
int main(void) {
    f( 10 ); return 0;
}

; stack_unwind.asm
extern printf
global unwind
section .rodata
format : db "%x ", 10, 0
section .code
unwind:
push rbx
; while (rbx != 0) {
    ;     print rbx; rbx = [rbx];
    ; }
    mov rbx, rbp
    .loop:
    test rbx, rbx
    jz .end
    mov rdi, format
    mov rsi, rbx
    call printf
    mov rbx, [rbx]
    jmp .loop
    .end:
    pop rbx
    ret

使用建议：在涉及大量不可内联函数调用的代码中，作为最后手段尝试使用此优化。

3.4 尾递归

相关GCC选项： -fomit-frame-pointer -foptimize-sibling-calls
尾递归是指函数在递归调用后立即返回，不进行进一步的计算。例如以下的阶乘函数：

// factorial_tailrec.c
__attribute__ (( noinline ))
int factorial( int acc, int arg ) {
    if ( arg == 0 ) return acc;
    return factorial( acc * arg, arg-1 );
}
int main(int argc, char** argv) { return factorial(1, argc); }

如果递归调用的结果需要用于后续计算，则不是尾递归，例如：

// factorial_nontailrec.c
__attribute__ (( noinline ))
int factorial( int arg ) {
    if ( arg == 0 ) return acc;
    return arg * factorial( arg-1 );
}
int main(int argc, char** argv) { return factorial(argc); }

现代编译器通常能够识别尾递归调用，并将其优化为循环。例如，GCC为尾递归阶乘函数生成的汇编代码如下：

00000000004004c6 <factorial>:
4004c6:  89 f8                      mov     eax,edi
4004c8:  85 f6                      test    esi,esi
4004ca:  74 07                      je      4004d3 <factorial+0xd>
4004cc:  0f af c6                   imul    eax,esi
4004cf:  ff ce                      dec     esi
4004d1:  eb f5                      jmp     4004c8 <factorial+0x2>
4004d3:  c3                         ret

尾递归调用包括两个阶段：
- 用新的参数值填充寄存器。
- 跳转到函数起始位置。

循环比递归快，因为递归需要额外的栈空间，可能导致栈溢出。但递归通常能更连贯、优雅地表达某些算法，如果能将函数写成尾递归形式，就不会影响性能。

以下是一个访问链表元素的尾递归示例：

// tail_rec_example_list.c
#include <stdio.h>
#include <malloc.h>
struct llist {
    struct llist* next;
    int value;
};
struct llist* llist_at(
        struct llist* lst,
        size_t idx ) {
    if ( lst && idx ) return llist_at( lst->next, idx-1 );
    return lst;
}
struct llist* c( int value, struct llist* next) {
    struct llist* lst = malloc( sizeof(struct llist*) );
    lst->next = next;
    lst->value = value;
    return lst;
}
int main( void ) {
    struct llist* lst = c( 1, c( 2, c( 3, NULL )));
    printf("%d\n", llist_at( lst, 2 )->value );
    return 0;
}

编译后的汇编代码如下：

0000000000400596 <llist_at>:
400596:       48 89 f8                       mov      rax,rdi
400599:       48 85 f6                       test     rsi,rsi
40059c:       74 0d                          je       4005ab <llist_at+0x15>
40059e:       48 85 c0                       test     rax,rax
4005a1:       74 08                          je       4005ab <llist_at+0x15>
4005a3:       48 ff ce                       dec      rsi
4005a6:       48 8b 00                       mov      rax,QWORD PTR [rax]
4005a9:       eb ee                          jmp      400599 <llist_at+0x3>
4005ab:       c3                             ret

使用建议：如果尾递归能使代码更具可读性，就不要害怕使用它，因为它不会带来性能损失。

3.5 公共子表达式消除

相关GCC选项： -fgcse 等包含 cse 子字符串的选项
计算两个具有公共部分的表达式时，不会重复计算该公共部分。例如，在以下代码中：

// common_subexpression.c
#include <stdio.h>
__attribute__ ((noinline))
void test(int x) {
    printf("%d %d",
            x*x + 2*x + 1,
            x*x + 2*x - 1 );
}
int main(int argc, char** argv) {
    test( argc );
    return 0;
}

编译后的代码不会重复计算 x*x + 2*x ：

0000000000400516 <test>:
; rsi = x + 2
400516:       8d 77 02                     lea       esi,[rdi+0x2]
400519:       31 c0                        xor       eax,eax
40051b:       0f af f7                     imul      esi,edi
; rsi = x*(x+2)
40051e:       bf b4 05 40 00               mov       edi,0x4005b4
; rdx = rsi-1 = x*(x+2) - 1
400523:       8d 56 ff                     lea       edx,[rsi-0x1]
; rsi = rsi + 1 = x*(x+2) - 1
400526:       ff c6                        inc       esi
400528:       e9 b3 fe ff ff               jmp       4003e0 <printf@plt>

使用建议：不要害怕编写包含相同公共子表达式的优美公式，编译器会高效地计算它们，优先考虑代码的可读性。

3.6 常量传播

相关GCC选项： -fipa-cp 、 -fgcse 、 -fipa-cp-clone 等
如果编译器能够证明某个变量在程序的特定位置具有特定的值，它可以直接使用该值，而无需读取变量。有时，编译器甚至会根据已知的参数值生成专门的函数版本。例如：

// constant_propagation.c
__attribute__ ((noinline))
static int sum(int x, int y) { return x + y; }
int main( int argc, char** argv ) {
    return sum( 42, argc );
}

编译后的汇编代码如下：

00000000004004c0 <sum.constprop.0>:
4004c0:       8d 47 2a                     lea       eax,[rdi+0x2a]
4004c3:       c3                           ret

当编译器能够计算复杂表达式（包括函数调用）时，效果会更好。例如：

// cp_fact.c
#include <stdio.h>
int fact( int n ) {
    if (n == 0) return 1;
    else return n * fact( n-1 );
}
int main(void) {
    printf("%d\n", fact( 4 ) );
    return 0;
}

GCC会预计算 fact(4) 的值，直接将其替换为24：

0000000000400450 <main>:
400450:  48 83 ec 08                        sub      rsp,0x8
400454:  ba 18 00 00 00                     mov      edx,0x18
400459:  be 44 07 40 00                     mov      esi,0x400744
40045e:  bf 01 00 00 00                     mov      edi,0x1
400463:  31 c0                              xor      eax,eax
400465:  e8 c6 ff ff ff                     call     400430 <__printf_chk@plt>
40046a:  31 c0                              xor      eax,eax
40046c:  48 83 c4 08                        add      rsp,0x8
400470:  c3                                ret

使用建议：命名常量和常量变量不会有坏处，编译器会尽可能预计算，包括对已知参数调用无副作用的函数。但要注意，为每个不同参数值生成多个函数副本可能会影响局部性并增加可执行文件的大小。

3.7 （命名）返回值优化

复制省略和返回值优化可以消除不必要的复制操作。例如：

// nrvo.c
struct p  {
    long x;
    long y;
    long z;
};
__attribute__ ((noinline))
struct p f(void) {
    struct p copy;
    copy.x = 1;
    copy.y = 2;
    copy.z = 3;
    return copy;
}
int main(int argc, char** argv) {
    volatile struct p inst = f();
    return 0;
}

未优化的汇编代码会在栈帧中创建 copy 并进行复制操作：

00000000004004b6 <f>:
; prologue
4004b6:  55                             push   rbp
4004b7:  48 89 e5                       mov    rbp,rsp
; A hidden argument is the address of a structure which will hold the  result.
; It is saved into stack.
4004ba:  48 89 7d d8                    mov    QWORD PTR [rbp-0x28],rdi
; Filling the fields of `copy` local variable
4004be:  48 c7 45 e0 01 00 00           mov    QWORD PTR [rbp-0x20],0x1
4004c5:  00
4004c6:  48 c7 45 e8 02 00 00           mov    QWORD PTR [rbp-0x18],0x2
4004cd:  00
4004ce:  48 c7 45 f0 03 00 00           mov    QWORD PTR [rbp-0x10],0x3
4004d5:  00
; rax = address of the destination struct
4004d6:  48 8b 45 d8                    mov    rax,QWORD PTR [rbp-0x28]
; [rax] = 1 (taken from `copy.x`)
4004da:  48 8b 55 e0                    mov    rdx,QWORD PTR [rbp-0x20]
4004de:  48 89 10                       mov    QWORD PTR [rax],rdx
; [rax + 8] = 2 (taken from `copy.y`)
4004da:  48 8b 55 e0                    mov    rdx,QWORD PTR [rbp-0x20]
4004e1:  48 8b 55 e8                    mov    rdx,QWORD PTR [rbp-0x18]
4004e5:  48 89 50 08                    mov    QWORD PTR [rax+0x8],rdx
; [rax + 10] = 3 (taken from `copy.z`)
4004e9:  48 8b 55 f0                    mov    rdx,QWORD PTR [rbp-0x10]
4004ed:  48 89 50 10                    mov    QWORD PTR [rax+0x10],rdx
; rax =  address where we have put the structure contents
; (it was the hidden argument)
4004f1:  48 8b 45 d8                    mov    rax,QWORD PTR [rbp-0x28]
4004f5:  5d                             pop    rbp
4004f6:  c3                             ret
00000000004004f7 <main>:
4004f7:  55                             push   rbp
4004f8:  48 89 e5                       mov    rbp,rsp
4004fb:  48 83 ec 30                    sub    rsp,0x30
4004ff:  89 7d dc                       mov    DWORD PTR [rbp-0x24],edi
400502:  48 89 75 d0                    mov    QWORD PTR [rbp-0x30],rsi
400506:  48 8d 45 e0                    lea    rax,[rbp-0x20]
40050a:  48 89 c7                       mov    rdi,rax
40050d:  e8 a4 ff ff ff                 call   4004b6 <f>
400512:  b8 00 00 00 00                 mov    eax,0x0
400517:  c9                             leave
400518:  c3                             ret
400519:  0f 1f 80 00 00 00 00           nop    DWORD PTR [rax+0x0]

而优化后的代码直接在隐藏参数指向的结构上操作，避免了复制：

00000000004004b6 <f>:
4004b6:  48 89 f8                      mov     rax,rdi
4004b9:  48 c7 07 01 00 00 00          mov     QWORD PTR [rdi],0x1
4004c0:  48 c7 47 08 02 00 00          mov      QWORD PTR [rdi+0x8],0x2
4004c7:  00
4004c8:  48 c7 47 10 03 00 00          mov QWORD PTR [rdi+0x10],0x3
4004cf:  00
4004d0:  c3                            ret
00000000004004d1 <main>:
4004d1:  48 83 ec 20                   sub     rsp,0x20
4004d5:  48 89 e7                      mov     rdi,rsp
4004d8:  e8 d9 ff ff ff                call    4004b6 <f>
4004dd:  b8 00 00 00 00                mov     eax,0x0
4004e2:  48 83 c4 20                   add     rsp,0x20
4004e6:  c3                            ret
4004e7:  66 0f 1f 84 00 00 00          nop     WORD PTR [rax+rax*1+0x0]
4004ee:  00 00

使用建议：如果要编写填充特定结构的函数，直接传递预分配内存区域的指针或使用 malloc 分配内存通常不是最优选择。

3.8 分支预测的影响

在微代码层面，CPU执行的操作比机器指令更原始，并且会重新排序以更好地利用CPU资源。分支预测是一种硬件机制，旨在提高程序执行速度。当CPU遇到条件分支指令（如 jg ）时，有两种处理方式：
- 同时开始执行两个分支。
- 猜测哪个分支会被执行并开始执行。

这发生在跳转目标依赖的计算结果（如 jg [rax] 中的GF标志值）尚未准备好时，通过投机执行代码来避免浪费时间。

分支预测单元可能会出现误预测，此时CPU需要撤销错误分支指令所做的更改，这会降低程序性能，但误预测相对较少。

分支预测逻辑取决于CPU型号，一般有静态和动态两种类型：
- 当CPU对跳转没有信息（首次执行）时，使用静态算法。例如，对于向前跳转，假设跳转发生；对于向后跳转，假设跳转不发生，因为用于实现循环的跳转更有可能发生。
- 如果跳转过去已经发生过，CPU可以使用更复杂的算法，如使用环形缓冲区存储跳转历史信息。当使用这种方法时，长度能整除缓冲区长度的小循环有利于预测。

使用建议：在使用 if-then-else 或 switch 语句时，先处理最可能出现的情况。也可以使用 __builtin_expect 等GCC指令作为跳转指令的特殊前缀来提供提示。

3.9 执行单元的影响

CPU由多个部分组成，每条指令在多个阶段执行，每个阶段由不同的CPU部分处理。例如，第一个阶段通常是指令获取，即从内存中加载指令而不考虑其语义。

执行单元是CPU中执行操作和计算的部分，它可以处理指令获取、算术运算、地址转换、指令解码等不同类型的操作。CPU可以相对独立地使用执行单元，不同指令的执行阶段数量不同，每个阶段可以由不同的执行单元处理，这使得可以实现一些有趣的电路使用方式，如：
- 在一条指令获取后立即获取下一条指令（即使前一条指令尚未执行完毕）。
- 尽管汇编代码中算术操作是顺序描述的，但可以同时执行多个算术操作。

例如，奔腾IV系列的CPU在合适的情况下已经能够同时执行四条算术指令。

以下是一个未优化的循环代码示例：

looper:
    mov      rax,[rsi]
    ; The next instruction depends on the previous one.
    ; It means that we can not swap them because
    ; the program behavior will change.
    xor     rax, 0x1
    ; One more dependency here
    add     [rdi],rax
    add     rsi,8
    add     rdi,8
    dec     rcx
    jnz     looper

由于指令之间存在依赖关系，会阻碍CPU微代码优化。可以将循环展开，使旧循环的两次迭代变为新循环的一次迭代：

looper:
mov      rax,  [rsi]
mov      rdx,  [rsi + 8]
xor      rax,  0x1
xor      rdx,  0x1
add      [rdi], rax
add      [rdi+8], rdx
add      rsi, 16
add      rdi, 16
sub      rcx, 2
jnz      looper

使用建议：当发现代码中存在指令依赖关系影响性能时，可以考虑展开循环来提高并行性。

综上所述，要编写高性能的代码，需要综合考虑共享对象和代码模型的特点，合理运用编译器优化技术，同时关注硬件的特性，如分支预测和执行单元的影响。通过不断的测试和优化，才能逐步提高代码的性能。

4. SSE指令与硬件缓存

在追求代码高性能的道路上，除了编译器优化，SSE（Streaming SIMD Extensions）指令和硬件缓存的合理利用也是关键因素。

4.1 SSE指令

SSE指令是一种单指令多数据（SIMD）技术，它允许一条指令同时处理多个数据元素，从而显著提高数据处理的并行性。例如，在处理大规模数据时，传统的指令可能需要逐个处理每个数据元素，而SSE指令可以一次性处理多个元素，大大减少了指令执行的次数。

以下是一个简单的SSE指令使用示例，用于实现两个数组的加法：

#include <emmintrin.h> // 包含SSE指令头文件

void sse_add(float *a, float *b, float *c, int n) {
    int i;
    for (i = 0; i < n; i += 4) {
        __m128 va = _mm_loadu_ps(&a[i]); // 加载4个单精度浮点数到SSE寄存器
        __m128 vb = _mm_loadu_ps(&b[i]);
        __m128 vc = _mm_add_ps(va, vb); // 执行加法操作
        _mm_storeu_ps(&c[i], vc); // 将结果存储回内存
    }
}

在这个示例中， __m128 是SSE寄存器类型， _mm_loadu_ps 用于加载数据到寄存器， _mm_add_ps 执行加法操作， _mm_storeu_ps 将结果存储回内存。通过这种方式，每次循环可以同时处理4个单精度浮点数，提高了计算效率。

4.2 硬件缓存

硬件缓存是CPU和主存之间的高速存储区域，它的作用是减少CPU访问主存的时间，提高数据访问的速度。缓存通常分为多级，如L1、L2和L3缓存，速度依次递减，但容量依次增大。

当CPU需要访问数据时，首先会在缓存中查找，如果数据存在于缓存中（缓存命中），则可以快速获取；如果数据不在缓存中（缓存缺失），则需要从主存中读取数据，并将其加载到缓存中。因此，合理利用缓存可以显著提高程序的性能。

以下是一些提高缓存命中率的建议：
- 数据局部性 ：尽量让程序访问的数据在内存中连续存储，这样可以提高缓存的命中率。例如，在遍历数组时，按顺序访问元素可以充分利用缓存的空间局部性。
- 循环展开 ：将循环展开可以减少循环控制的开销，同时增加数据访问的局部性。例如，将一个循环展开为多个迭代同时处理，可以让更多的数据在缓存中被复用。
- 预取数据 ：在某些情况下，可以使用预取指令提前将数据加载到缓存中，以减少缓存缺失的影响。例如，在访问大量数据之前，可以使用预取指令将即将访问的数据提前加载到缓存中。

5. 性能优化的综合应用

在实际编程中，需要综合运用上述各种优化技术，根据具体的应用场景和硬件环境进行针对性的优化。以下是一个综合优化的示例，用于实现一个矩阵乘法的程序：

#include <stdio.h>
#include <emmintrin.h>

#define N 1024

void matrix_multiply(float *A, float *B, float *C) {
    int i, j, k;
    for (i = 0; i < N; i++) {
        for (j = 0; j < N; j++) {
            float sum = 0.0;
            for (k = 0; k < N; k++) {
                sum += A[i * N + k] * B[k * N + j];
            }
            C[i * N + j] = sum;
        }
    }
}

void matrix_multiply_optimized(float *A, float *B, float *C) {
    int i, j, k;
    for (i = 0; i < N; i += 4) {
        for (j = 0; j < N; j++) {
            __m128 sum = _mm_setzero_ps();
            for (k = 0; k < N; k++) {
                __m128 a = _mm_loadu_ps(&A[i * N + k]);
                float b = B[k * N + j];
                __m128 mul = _mm_mul_ps(a, _mm_set1_ps(b));
                sum = _mm_add_ps(sum, mul);
            }
            _mm_storeu_ps(&C[i * N + j], sum);
        }
    }
}

int main() {
    float A[N * N], B[N * N], C[N * N];
    // 初始化矩阵A和B
    for (int i = 0; i < N * N; i++) {
        A[i] = (float)i;
        B[i] = (float)(N * N - i);
    }

    // 未优化的矩阵乘法
    matrix_multiply(A, B, C);

    // 优化后的矩阵乘法
    matrix_multiply_optimized(A, B, C);

    return 0;
}

在这个示例中， matrix_multiply 是未优化的矩阵乘法实现，而 matrix_multiply_optimized 则使用了SSE指令进行优化。通过使用SSE指令，每次循环可以同时处理4个元素，提高了计算的并行性。同时，合理的循环结构也有助于提高缓存的命中率。

6. 性能测试与分析

在进行性能优化的过程中，性能测试和分析是必不可少的环节。通过性能测试可以评估优化的效果，找出性能瓶颈所在；通过性能分析可以深入了解程序的执行情况，为进一步的优化提供依据。

6.1 性能测试工具

6.2 性能分析流程

以下是一个简单的性能分析流程：

graph TD;
    A[编写程序] --> B[进行性能测试];
    B --> C{性能是否满足要求};
    C -- 是 --> D[结束优化];
    C -- 否 --> E[使用性能分析工具进行分析];
    E --> F[找出性能瓶颈];
    F --> G[进行针对性优化];
    G --> B;

在这个流程中，首先编写程序并进行性能测试，然后根据测试结果判断性能是否满足要求。如果性能不满足要求，则使用性能分析工具找出性能瓶颈，进行针对性的优化，然后再次进行性能测试，直到性能满足要求为止。