一 测试代码
#include <stdio.h>
#include <iostream>
#include "cublas_v2.h"
__global__ void test(void)
{
__shared__ half aTile[4 * 8 * 8];
int tidx = threadIdx.x + blockDim.x * threadIdx.y;
// 下面的代码是把smem中的4*8*8的矩阵,初始化数值!
if (tidx == 0)
{
// for (int i = 0; i < 4 * 8 * 8 * 2; ++i)
for (int i = 0; i < 4 * 8 * 8 ; ++i)
{
aTile[i] = i;
}
}
__syncthreads();
// int aTile_index = tidx % 16 * 32 + tidx / 16 * 16;
// int aTile_index = tidx % 8 * 32 + tidx / 8 * 4;
int aTile_index = tidx % 16 * 16 + tidx / 16 * 8;
uint32_t my_register[4];
uint32_t smem = __cvta