
显卡加速
风来我也来
这个作者很懒,什么都没留下…
展开
-
cuda最佳线程数目设置
最近,尝试gpu编程加速,经过权衡最终选择cuda。查阅资料 在 文献2 出处发现涉及到cuda最优线程数目设置,最优线程数目会影响执行效率。根据他/她提供的链接,仍然不明白为什么会有这个限制。后面刚好看《深入浅出谈cuda》,作者提到这个问题。我大致总结一下:1.受显卡 多处理器 的寄存器数目限制,GeForce 8800GT的显卡 最多8192寄存器,假设每个线程需要的寄存器等原创 2016-02-22 11:43:04 · 12291 阅读 · 4 评论 -
cuda共享内存,全局内存,纹理等的解释
开始阅读粗大资料感觉文献1的描述讲得明白,摘录到这里方便他人了解。增加简单排版后,摘录1.共享内存目前 CUDA 装置中,每个 multiprocessor 有 16KB 的 shared memory。 Shared memory 分成16 个 bank。如果同时每个 thread 是存取不同的 bank,就不会产生任何问题,存取 sharedmemory 的速度和存取寄原创 2016-02-22 12:00:19 · 8251 阅读 · 3 评论 -
遍历图像设计threadIdx blockIdx blockDim 解释
最近进行gpu编程,受困于杂事,对threadIdx blockIdx blockDim理解存在偏颇导致浪费不少时日。遂整理资料加深认识。原创 2016-03-10 15:00:44 · 7555 阅读 · 2 评论