16个基础C++代码性能优化实例解析

C语言小火车

已于 2025-03-11 16:47:23 修改

阅读量1k

点赞数 24

分类专栏： C语言编程入门文章标签： c++ 开发语言

于 2025-03-11 16:16:32 首次发布

本文链接：https://blog.youkuaiyun.com/xiangxin1030/article/details/146181470

版权

C语言同时被 2 个专栏收录

82 篇文章

订阅专栏

编程入门

54 篇文章

订阅专栏

性能优化是C++开发中的核心课题。本文结合函数设计、内存管理、循环结构、并发处理等关键领域，整理16个基础优化技巧，通过减少拷贝、提升缓存利用率和编译优化等手段，帮助开发者构建高效C++程序。

所有案例均附代码示例及技术原理说明。

一、函数参数与返回值优化

1. 使用const引用传递大对象

场景：函数需要读取但不需要修改大型对象（如std::vector）。

优化原理：值传递会触发对象拷贝构造，改用const T&可消除拷贝开销。内置类型（int/double等）仍建议值传递以支持寄存器优化。

// 优化前：每次调用触发vector拷贝
void process(vector<int> data);  

// 优化后：仅传递引用
void process(const vector<int>& data);

2. 返回成员变量的const引用

场景：类成员访问接口返回内部状态。

优化原理：返回完整拷贝会浪费内存，通过引用直接暴露成员变量（需确保引用有效性）。调用方需用const auto&接收以避免二次拷贝。

class System {
public:
    // 返回内部状态的引用
    const Eigen::VectorXd& GetStates() const { 
        return current_states_; 
    }
private:
    Eigen::VectorXd current_states_;
};

二、容器与循环优化

3. 循环中使用引用遍历容器

场景：遍历容器时频繁访问元素。

优化原理：默认值遍历会拷贝每个元素，引用遍历直接操作原对象。若元素为指针，优先使用const auto*或auto*

std::vector<Widget> widgets;
// 优化前：每次循环拷贝Widget对象
for (auto widget : widgets) { ... }  

// 优化后：直接操作原对象
for (const auto& widget : widgets) { ... }

4. 避免unordered_map遍历时的隐式转换

场景：遍历std::unordered_map时未正确使用元素类型。

优化原理：unordered_map的键为const Key类型，错误声明pair<Key, T>会触发拷贝构造

std::unordered_map<int, Widget> umap;
// 错误写法：触发int到const int的隐式拷贝
for (std::pair<int, Widget>& pair : umap) { ... }  

// 正确写法：直接使用const引用
for (const auto& pair : umap) { ... }

三、内存管理优化

5. 优先使用std::make_shared

场景：动态创建共享指针管理的对象。

优化原理：std::make_shared将对象内存与控制块合并分配，相比new+shared_ptr减少一次堆内存操作

// 优化前：两次内存分配（对象+控制块）
std::shared_ptr<Widget> ptr(new Widget);  

// 优化后：单次分配
auto ptr = std::make_shared<Widget>();

6. 自定义内存分配器（对象池）

场景：高频创建/销毁的小对象（如游戏粒子系统）。

优化原理：预分配内存块并通过空闲链表复用，避免频繁系统调用和内存碎片

class ParticlePool {
public:
    Particle* Allocate() {
        if (free_list_.empty()) ExpandPool();
        Particle* p = free_list_.back();
        free_list_.pop_back();
        return p;
    }
private:
    std::vector<Particle*> free_list_;
};

7. 结构体成员对齐优化

场景：定义包含多种数据类型的结构体。

优化原理：按类型长度降序排列成员（如double→int→char），减少内存空洞，提升缓存命中率

// 优化前：可能产生填充字节
struct Unaligned { 
    char c;     // 1字节
    double d;   // 8字节（偏移量需对齐至8）
    int i;      // 4字节
};  // 总大小：1 + 7填充 + 8 + 4 = 20字节

// 优化后：自然对齐
struct Aligned { 
    double d;   // 8字节（偏移量0）
    int i;      // 4字节（偏移量8）
    char c;     // 1字节（偏移量12）
};  // 总大小：8 + 4 + 1 + 3填充 = 16字节

四、运算与代码结构优化

8. 合并默认构造与赋值操作

场景：初始化对象时先默认构造再赋值

优化原理：直接调用拷贝构造函数，避免先构造空对象再覆盖数据

// 优化前：默认构造 + 拷贝赋值
Matrix m1;      
m1 = m2 + m3;   

// 优化后：直接拷贝构造
Matrix m1 = m2 + m3;

9. 位运算替代乘除与取模

场景：对2的幂次数进行乘除或取模运算

优化原理：位运算（移位、位与）的指令周期通常短于算术运算

// 乘以8（等价于x << 3）
int a = x * 8;      // 优化为：int a = x << 3;

// 对8取模（等价于x & 0x07）
int rem = x % 8;    // 优化为：int rem = x & 7;

10. 模板元编程实现循环展开

场景：固定尺寸的密集计算（如3x3矩阵乘法）

优化原理：通过模板递归展开循环，消除分支预测和循环变量开销

template<size_t N>
struct MatrixMultiplier {
    static void Multiply(float* result, const float* a, const float* b) {
        // 递归展开计算
        MatrixMultiplier<N-1>::Multiply(result, a, b);
        // 计算第N个元素...
    }
};

// 模板特化终止递归
template<>
struct MatrixMultiplier<0> {
    static void Multiply(float*, const float*, const float*) {}
};

五、并发与缓存优化

11. 缓存行对齐避免伪共享

场景：多线程频繁访问共享变量

优化原理：将不同线程访问的变量隔离到不同缓存行（通常64字节），防止CPU缓存失效

// 每个线程独立计数器，确保不在同一缓存行
alignas(64) int thread_counters[4]; 

void ThreadFunc(int idx) {
    thread_counters[idx]++;  // 不同线程访问不同元素
}

12. 无锁队列（CAS原子操作）

场景：高并发场景下的生产者-消费者模型

优化原理：使用std::atomic实现无锁数据结构，减少线程阻塞和上下文切换

std::atomic<int> counter;

void Increment() {
    // 原子自增（内存序宽松，仅保证原子性）
    counter.fetch_add(1, std::memory_order_relaxed);
}

六、编译器与运行时优化

13. 启用编译器优化选项

场景：构建Release版本时未充分使用编译器优化

优化原理：编译器可通过内联、循环展开、指令重排等优化提升性能

# GCC/Clang：启用O3优化和本地指令集
g++ -O3 -march=native main.cpp -o app

# MSVC：启用/O2优化
cl /O2 main.cpp

14. CRTP替代虚函数

场景：需要多态但虚函数调用成为性能瓶颈

优化原理：奇异递归模板模式（CRTP）通过静态多态消除虚表查找开销

template<typename Derived>
class Shape {
public:
    void Draw() { 
        static_cast<Derived*>(this)->DrawImpl(); 
    }
};

class Circle : public Shape<Circle> {
public:
    void DrawImpl() { /* 绘制圆形 */ }
};

七、其他实用技巧

15. 延迟计算与写时复制（Copy-on-Write）

场景：对象初始化成本高，且可能被多次复制

优化原理：延迟实际计算至首次访问，共享数据副本直到需要修改

class LazyObject {
public:
    const Data& GetData() const {
        if (!data_) data_ = ComputeData();  // 首次访问时计算
        return *data_;
    }
private:
    mutable std::shared_ptr<Data> data_;
};

16. 内联高频调用的短函数

场景：频繁调用简单函数（如数学工具函数）

优化原理：内联消除函数调用开销（栈帧分配、参数传递等）

// 声明为inline建议编译器内联
inline int Add(int a, int b) { 
    return a + b; 
}

总结

优化方向	核心策略	典型收益场景
函数设计	减少拷贝、引用传递	大型对象传递、成员访问
内存管理	合并分配、复用内存	高频小对象创建/销毁
循环结构	引用遍历、循环展开	密集容器操作、固定尺寸计算
并发处理	缓存对齐、无锁结构	多线程计数器、任务队列
编译器优化	启用O3、静态多态	数学运算、虚函数调用