10、优化GPU硬件加速器上内存受限的SYMV内核

最新推荐文章于 2025-08-19 10:13:09 发布

原创最新推荐文章于 2025-08-19 10:13:09 发布 · 58 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#GPU加速 # SYMV内核 # 内存带宽优化

高性能计算与应用：VECPAR 2012精选论文专栏收录该内容

54 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优化GPU硬件加速器上内存受限的SYMV内核

1. 引言

GPU长期以来主要用于图形处理，但如今其不断提升的并行性和计算能力，使其在高性能计算（HPC）领域备受关注，成为低成本、低功耗且高Gflop/s的处理单元。nVidia推出的Fermi架构，单精度（SP）理论峰值达1 Tflop/s，双精度（DP）约500 Gflop/s，具备完整的内存层次结构、ECC支持以及符合IEEE 754 - 2008标准的浮点性能等诸多新特性。

在密集线性代数中，对称矩阵向量乘法（SYMV）内核因内存带宽受限，在对称密集矩阵的三对角化（计算特征对的预处理步骤）中起着关键作用。由于矩阵的对称性导致内存访问模式不规则，在GPU上设计该内核颇具挑战。本文提出一种新颖的SYMV内核设计，利用Fermi架构的新特性，通过隐藏延迟和增加带宽来解决不规则内存访问问题。初步结果显示，该内核在单精度和双精度运算中，分别比CUBLAS 4.0内核快3.5倍和2.5倍，比Matrix Algebra on GPU and Multicore Architectures（MAGMA）库提升7 - 8%和30%。