CUDA简介
CUDA是NVIDIA发布的GPU上的并行计算平台和模型, 2006年第一代CUDA发布,截至2018年最新的是9代CUDA.
hello cuda!
__global__ void helloWorld() //__globa__是关键字
{
printf("Hello CUDA!");
}
int main(int argc char* argv[])
{
helloWorld<<<3,2>>>(); //用3个block,每个block2个线程执行helloWorld()
cudaDeviceSynchronize(); //函数执行后必须有这个同步函数
return 0;
}
CUDA中的线程管理
CUDA中线程管理分为三个层次: grid, block, thread, 每一个层次都有x-y-z三个维度.
一组thread组成一个block, 一组block组成一个grid.
threadIdx.x, threadIdx.y, threadIdx.z: thread层三个维度访问方法
blockIdx.x, blockIdx.y, blockIdx.z: block层三个维度访问方法
gridIdx.x, gridIdx.y, gridIdx.z: grid层三个维度访问方法
blockDim.x, blockDim.y, blockDim.z: block每个维度上的长度
gridDim.x,gridDim.y,gridDim.z: grid每个维度上的长度
CUDA这种线程格局和程序中多维数组一致,所以CUDA优化的一个重要思想是: 利用线程index替换数组下标,一个