前面搭建好了CUDA的开发环境,现在来开始第一个程序看看,新建项目:

新建好后项目目录结构如下,一开始就一个文件"kernel.cu",cu后缀说明项目将使用英伟达编译器而不是Visual C编译器,它是混合了主机代码和设备代码的源文件,主机代码是在CPU运行(串行),通过kernel调用,把数据传给GPU设备设备来执行(并行),然后再把结果拷贝回主机,这个流程可以在addWithCuda函数中看到:

重点的计算流程在addWithCuda函数中,这里分配了一个block,里面用数组大小个线程(这里为5)去计算,最后在109行把数据从设备空间拷贝到主机空间:

运行结果如下:

这里只是生成工程提供的一个模板,可以让我们了解到一些CUDA编程的基本方式,后面熟悉了可以直接把代码删了,改为我们实际需要的编程部分。
并行编程的核心是线程的概念,一个线程就是程序中的一个单一的执行流,多个线程组成线程束,如上,使用5个线程组成一个束,如果使用CPU编程,我们肯定是在一个for循环来完成的,现在这样处理,其实就是循环并行化,类似OpenMP的做法。我们要知道,CPU的设计是用来运行少量比较复杂的任务,而GPU的设计是用来进行大量比较简单的任务,在进行并行编程时,要时刻记住并发性与局部性,知道如何合理拆分数据去进行运算以更好利用GPU的特性。
另外,还应该多看看官方文档:

这篇博客介绍了CUDA入门的第二个步骤,创建并运行第一个CUDA项目。文章详细阐述了项目结构,说明了CUDA源文件如何包含主机和设备代码。在`addWithCuda`函数中,展示了如何分配计算单元并在GPU上执行并行计算。最后,讨论了CUDA编程的核心——线程概念和并行化的本质,强调理解并发性和局部性对于充分利用GPU性能的重要性。建议读者深入研究官方文档以深化理解。
1447

被折叠的 条评论
为什么被折叠?



