4.4 TILING FOR REDUCED MEMORY TRAFFIC_内存 tiling-优快云博客

我们在CUDA中使用设备内存方面有一个内在的权衡：全局内存大但速度慢，而共享内存小但速度快。一个常见的策略是将数据划分为称为tile的子集，以便每个tile都适合共享内存。tile一词”借鉴了一个类比，即大墙（即全局内存数据）可以被瓷砖覆盖（即每个可以放入共享内存的子集）。一个重要的标准是，这些tile上的内核计算可以相互独立执行。请注意，给定任意内核函数，并非所有数据结构都可以分区为tile。

tile的概念可以使用图4.5中的矩阵乘法示例来说明，对应于图4.3.中的内核函数。我们复制了图4.9 中的示例。方便读者参考。为了简洁，我们使用Py，X，My，X和Ny，x分别表示P[yWidth+ x], M[yWidth+ x]和N[y*Width+ x]。这个例子假设我们使用四个2x2块来计算P矩阵。图4.9突出显示由块（0,0）的四个线程执行的计算。这四个线程计算P0,0,P0,1,P1,0和P1,1。块（0,0）的线程（0,0）和线程（0,1）访问M和N元素的访问用黑色箭头突出显示；例如，线程（0,0）读取Mo.o和No.o.，然后是Mo.1和Ni.o.，然后是Mo.2和N2.0，然后是Mo.3和N3.0。
在这里插入图片描述
图4.10显示block0.0中所有线程执行的全局内存访问。线程以垂直方向列出，访问时间增加到就在水平方向。在执行过程中，每个线程访问M的四个元素和N的四个元素。在突出显示的四个线程中，它们访问的M和N元素发生了明显的重叠。例如，thread0.0和thread0,1都访问M0.0和M行0的其余部分。同样，thread0,1和thread1,1都访问N 0,1 和N第1列的其余部分。