（CUDA）GELU为例，通过向量化访存的方式进行优化

原创已于 2024-08-01 20:16:10 修改 · 820 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-07-30 16:33:23 首次发布

部署运行你感兴趣的模型镜像

访存密集型（memory-bound）算子的特点是：

1.算子的性能主要受限于内存带宽，而不是计算能力。
2.算子的计算量相对较小，但需要频繁访问内存。
3.算子的计算过程中，处理器的时间主要花费在等待数据从内存加载或写回内存上。

针对这类算子，除了用共享内存进行优化，还有一种优化方式就是：使用向量化方式访存，使得一个线程读取更多数据，但同时也要修改的内存对齐长度以保证效率（对齐长度单元的内存是连续的，并且减少内存的padding，自然就能保证效率），内存对齐长度根据向量化方式访存所选取的数据向量长度来决定，这也是一种参考SIMD的思路。

以GELU在CUDA中的优化为例，可参考这篇文章：