
CUDA编程
文章平均质量分 68
roctang2006
这个作者很懒,什么都没留下…
展开
-
阅读 《大规模并行处理器程序设计》影印版心得 第六章 Performance Consideration
6.1 More on Thread Execution warp的概念 warp是如何组织的:按x,y,z逐渐增大的方式来线性化多维方式组织的线程,然后从前往后,每32个线程为一个warp The hardware executes an instruction for all threads in the same warp before moving to th原创 2011-06-23 01:19:00 · 857 阅读 · 0 评论 -
阅读 《大规模并行处理器程序设计》影印版心得 第四章 CUDA Threads
4.1 CUDA Thread Organization 具体例子:一个grid中有N个block,但是以一维的形式组织起来。每一个block中有M个线程,也以一维的形式组织起来。则任何一个block中的线程可以号可以用公式 threadID = blockIdx.x *blockDim.x +threadIdx.x来计算。 两个变量:gridDim和blockDim, g原创 2011-06-20 23:16:00 · 974 阅读 · 0 评论 -
阅读 《大规模并行处理器程序设计》影印版心得 第三章 Introduction to CUDA
3.1 data parallelism 数据可并行化处理是应用GPU计算的核心。矩阵相乘是简单的数据可并行化的例子,更多的应用中体现出更复杂的数据并行化。 3.2 CUDA program structure grid -- 每一个kernel调用时,所生成的所有threads,统称为一个grid,可以认为grid是threads的一个组织单位。 3.3 a原创 2011-06-20 17:39:00 · 767 阅读 · 0 评论 -
阅读 《大规模并行处理器程序设计》影印版心得 第五章 CUDA Memories
主要意图是:global memory太慢(几百个时钟周期),带宽太小。我们编程时,应该努力少用global memory,而更多使用shared memory和constant memory等快速memory 5.1 Importance of Memory Access Efficiency CGMA 刻画做一次浮点运算需要做几次global memory访问,此值原创 2011-06-22 17:36:00 · 973 阅读 · 0 评论 -
centos下安装双GPU卡
如果两个GPU卡都不接显示器,则要注意把GPU卡的驱动手动加载,具体可参阅下面的shell程序。 From the releasenotes:----------------------------------------Linux----------------------------------------* In order to run CUDA appli原创 2012-05-03 22:28:06 · 3504 阅读 · 0 评论