本文主要讲述了,如何使用GPU加速矩阵乘法。
![[Pasted image 20230718164359.png]]
上图显示了GPU的架构。
如果能将数据从global memory 预取到shared memory,将能加快矩阵乘法计算。
上图中的预取部分,还可以细化到每隔线程去一部分数据到 shared memory
我们将 S ∗ L S*L S∗L大小的数据取到 sA sB中。
每个线程负责计算一小块区域 V ∗ V V*V V∗V大小的区域
本文主要讲述了,如何使用GPU加速矩阵乘法。
![[Pasted image 20230718164359.png]]
上图显示了GPU的架构。
如果能将数据从global memory 预取到shared memory,将能加快矩阵乘法计算。
上图中的预取部分,还可以细化到每隔线程去一部分数据到 shared memory
我们将 S ∗ L S*L S∗L大小的数据取到 sA sB中。
每个线程负责计算一小块区域 V ∗ V V*V V∗V大小的区域