cuda warp内原语——vote instructions&warp instructions
warp内原语
——shfl_sync, shfl_up_sync, shfl_down_sync, and shfl_xor_sync 可在warp级别交换线程的变量。
写在开头:
**·**shfl, shfl_up, shfl_down, and __shfl_xor在cuda9.0以上的设备已经被禁止使用,所以最新的cuda版本都需要使用sync版本
**·**内存延迟:global memory ~500 cycles /shared memory ~5 cycles/registers ~1 c
原创
2021-01-07 11:41:40 ·
919 阅读 ·
0 评论