tensor core中的ldmatrix.sync.aligned详解

youzjuer

已于 2025-01-13 10:26:18 修改

阅读量130

点赞数

分类专栏： CUDA和LLM通俗易懂技术站 python 文章标签：算法人工智能

于 2025-01-09 14:30:24 首次发布

本文链接：https://blog.youkuaiyun.com/youzjuer/article/details/145032456

版权

CUDA和LLM通俗易懂技术站同时被 2 个专栏收录

105 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

python

36 篇文章

订阅专栏

一测试代码

#include <stdio.h>
#include <iostream>
#include "cublas_v2.h"

__global__ void test(void)
{
    __shared__ half aTile[4 * 8 * 8];

    int tidx = threadIdx.x + blockDim.x * threadIdx.y;
    // 下面的代码是把smem中的4*8*8的矩阵，初始化数值！
    if (tidx == 0)
    {
        // for (int i = 0; i < 4 * 8 * 8 * 2; ++i)
        for (int i = 0; i < 4 * 8 * 8 ; ++i)
        {
            aTile[i] = i;
        }
    }
    __syncthreads();

    // int aTile_index = tidx % 16 * 32 + tidx / 16 * 16;
    // int aTile_index = tidx % 8 * 32 + tidx / 8 * 4;
    int aTile_index = tidx % 16 * 16 + tidx / 16 * 8;
    uint32_t my_register[4];
    uint32_t smem = __cvta