
CUDA
xll_bit
这个作者很懒,什么都没留下…
展开
-
【CUDA】Memory Coalescing(内存合并)
内存合并的基础是DRAM Burst。mei当我们从全局内存搬运数据到共享内存或者寄存器时,原创 2021-06-08 16:15:13 · 2235 阅读 · 3 评论 -
【CUDA-C/C++】任意维度矩阵乘
前面已经写过了利用Fortran实现任意维度矩阵乘的CUDA实现,详见:https://blog.youkuaiyun.com/xll_bit/article/details/117551476?spm=1001.2014.3001.5501,今天更新一个原创 2021-06-08 14:32:46 · 573 阅读 · 0 评论 -
【CUDA-FORTRAN] 1D stencil
module reverse_m implicit none integer, device :: n_dcontains attributes(global) subroutine staticReverse(a, d) real :: d(:), a(:), result integer :: t, tr, t1, j, sa integer,parameter :: ra = 3 real, shared :: s(-ra+1:64 + ra) .原创 2021-06-04 10:46:36 · 491 阅读 · 3 评论 -
【CUDA-FORTRAN】实现任意维度矩阵乘
之前写过一篇矩阵乘,但只能是方阵,详见https://blog.youkuaiyun.com/xll_bit/article/details/103271788?spm=1001.2014.3001.5501这次原创 2021-06-04 10:29:55 · 727 阅读 · 0 评论 -
【CUDA】矩阵乘法(从简单到进阶)
在学习CUDA的过程中,免不了要实现矩阵乘,从而对GPU的运作机制以及如何使用share memory有更深的理解。下面是用FORTRAN对简单矩阵乘和利用分块并将数据放入share memory实现矩阵乘的实现。! this program demonstates various memory optimzation techniques! applied to a matrix mul...原创 2019-11-27 11:20:57 · 693 阅读 · 0 评论