一 D的layout
上图中的T0{d0,d1}表示的是thread0中的寄存器0和寄存器1中是A矩阵ROW0 * B矩阵COL0和A矩阵的ROW0和B矩阵的COL1的结果,T1{d0,d1}表示的是thread1中的寄存器0和寄存器1中是A矩阵ROW0 * B矩阵COL2和A矩阵的ROW0和B矩阵的COL3的结果,T4{d0,d1}表示的是thread4中的寄存器0和寄存器1中是A矩阵ROW1 * B矩阵COL0和A矩阵的ROW1和B矩阵的COL1的结果
相当于是每个thread的寄存器都装有D矩阵不同位置的结果,这个寄存器的位置就可以知道他是来自于A矩阵的哪一行和B矩阵的哪一列