1.1 内核函数
CUDA C++扩展了C++语法,允许开发者定义称为"内核"的特殊函数。与常规C++函数仅执行一次不同,内核函数被调用时会在N个不同的CUDA线程中并行执行N次。
内核函数通过__global__
声明限定符定义,其执行线程数量由独特的<<<...>>>
执行配置语法指定。每个执行内核的线程可通过内置变量获取唯一的线程ID。
以下示例代码演示了如何使用内置变量threadIdx
,将长度为N的向量A和B相加,结果存储到向量C中:
以下是一个完整的CUDA程序,展示了如何使用内核函数执行向量加法:
#include <stdio.h>
#