
NVIDIA春季训练营
文章平均质量分 64
Donqui_xote
这个作者很懒,什么都没留下…
展开
-
CUDA ON ARM PLATFORM(NVIDIA 春季训练营2023)(四)
为了提高多个线程同时访问共享内存的效率,共享内存被划分为32个逻辑块(banks)。第一个bank为0~3字节,第二个bank为4~7字节,以此类推至127字节。由于每个周期内每个bank只能响应一个地址,当同一个warp(线程束)中的不同线程访问同一个bank中的不同地址时就会发生bank conflict。同一个warp中的线程索引为((0, 0), (0, 1), (0, 2), (0, 3),...,(0, 31))相同地址(其他线程未访问该bank的其他地址)原创 2023-02-10 20:04:57 · 273 阅读 · 0 评论 -
CUDA ON ARM PLATFORM(NVIDIA 春季训练营2023)(三)
GPU的内存包括全局内存(global memory)、常量内存(constant memory)、纹理内存核表面内存(texture memory)、寄存器(register)、局部内存(local memory)和共享内存(shared memory)以及L1、L2缓存(从费米架构开始有了SM层次的L1 cache和设备层次的L2 cache)。常量内存是有常量缓存的全局内存,大小有限,只有64KB。两者类似于常量内存,也是一种具有缓存的全局内存。全局内存是核函数中所有的线程都能够访问的内存。原创 2023-02-10 14:13:43 · 218 阅读 · 0 评论 -
CUDA ON ARM PLATFORM(NVIDIA 春季训练营2023)(二)
CUDA编程原创 2023-02-10 00:44:40 · 169 阅读 · 0 评论 -
CUDA ON ARM PLATFORM(NVIDIA 春季训练营2023)(一)
CUDA入门教程原创 2023-02-06 22:36:23 · 501 阅读 · 0 评论