我生命中最灿烂的时光,目前还没有一个中心。那个中心应该是一个人,找到她,我的幸福就有了规律。爱情就像漂泊者找到了一片耕地,经营它,稳定回报快乐收获前进的方向与动力。(一个母胎solo如是幻想)
1 想法
为什么这件事情也需要GPU来做呢?
GPU大量并行线程可以同时处理多个数据块,减少缓存未命中的影响。此外,GPU有较大的内存带宽,可以更有效地处理大规模的数据传输。
矩阵转置本质上可以被分解为许多独立的小任务,即每个元素的读取和写入都是独立的。那么配合带宽,就能做到同时读取与写入。
所以,合并访存,bank conflict是必须要考虑的事情。
接下来从以下几个角度进行编写:
- CPU转置;
- 全局内存转置;
- 共享内存转置;·
没什么注意点,就是注意实验规模,小手随便一输,对于CPU可能就是几分钟的运算时间~
其实,实验规模可以狠狠地扩大的,目前看来,这些个代码,除了硬件速度和内存大小限制,对于多大的矩阵都是能转置的。
2 代码
2.1 CPU
没什么好说的
ELEM_TYPE* transpose_cpu(ELEM_TYPE* mat, int n) {
ELEM_TYPE* ret = new ELEM_TYPE[n*n];
for (int i=0; i<n; i++) {
for (int j=0; j<n; j++) {
int ori_1d_idx = i*n+j;
int after_1d_idx = j*n+i;
ret[after_1d_idx] = mat[ori_1d_idx];
}
}
return ret;
}
2.2 全局内存版本
更简单了,我超。有些东西啊,方阵做事

最低0.47元/天 解锁文章
2661

被折叠的 条评论
为什么被折叠?



