CUDA编程练习(十一) 矩阵转置

我生命中最灿烂的时光,目前还没有一个中心。那个中心应该是一个人,找到她,我的幸福就有了规律。爱情就像漂泊者找到了一片耕地,经营它,稳定回报快乐收获前进的方向与动力。(一个母胎solo如是幻想)

1 想法

为什么这件事情也需要GPU来做呢?

GPU大量并行线程可以同时处理多个数据块,减少缓存未命中的影响。此外,GPU有较大的内存带宽,可以更有效地处理大规模的数据传输。

矩阵转置本质上可以被分解为许多独立的小任务,即每个元素的读取和写入都是独立的。那么配合带宽,就能做到同时读取与写入。

所以,合并访存,bank conflict是必须要考虑的事情。

接下来从以下几个角度进行编写:

  • CPU转置;
  • 全局内存转置;
  • 共享内存转置;·

没什么注意点,就是注意实验规模,小手随便一输,对于CPU可能就是几分钟的运算时间~

其实,实验规模可以狠狠地扩大的,目前看来,这些个代码,除了硬件速度和内存大小限制,对于多大的矩阵都是能转置的。

2 代码

2.1 CPU

没什么好说的

ELEM_TYPE* transpose_cpu(ELEM_TYPE* mat, int n) {

    ELEM_TYPE* ret = new ELEM_TYPE[n*n];

    for (int i=0; i<n; i++) {
        for (int j=0; j<n; j++) {
            int ori_1d_idx = i*n+j;
            int after_1d_idx = j*n+i;

            ret[after_1d_idx] = mat[ori_1d_idx];
        }
    }
    return ret;
}

2.2 全局内存版本

更简单了,我超。有些东西啊,方阵做事

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值