一 基本分析
一个kernel会启动一个grid,一个grid包含多个block,每个block包含多个thread
对于CTA来说:
CTA(Cooperative Thread Array)-优快云社区
CTA:(Collaborative Tread Arrays), CUDA程序的任务分发单位,CTA与block是同一事物在执行模型和编程模型中的表述;同一个block中的线程使用同一块shared memory;一个CTA里的线程必须被分配到同一个SM中;目前硬件下,CTA最多由16个warp组成(512个线程);
而一个cluster可以有多个block
二 概念
2.1 cuda中threadIdx、blockIdx、blockDim和gridDim的使用
(45 封私信 / 67 条消息) cuda中threadIdx、blockIdx、blockDim和gridDim的使用 - 知乎
- 线程(Thread):一般通过GPU的一个核进行处理;