一 使用 实例
Nvidia Tensor Core-MMA PTX编程入门_ptx指令-优快云博客
图1.1
需要注意的是B矩阵的T0中的转载的数据需要纵置(也就是需要转置),本质上是不同的thread对应相乘,比如A的T0和B的T0对应相乘,无所谓数据是横置还是纵置
Nvidia Tensor Core-MMA PTX编程入门_ptx指令-优快云博客
图1.1
需要注意的是B矩阵的T0中的转载的数据需要纵置(也就是需要转置),本质上是不同的thread对应相乘,比如A的T0和B的T0对应相乘,无所谓数据是横置还是纵置