CUDA入门(二)The First Programme

这篇博客介绍了CUDA入门的第二个步骤,创建并运行第一个CUDA项目。文章详细阐述了项目结构,说明了CUDA源文件如何包含主机和设备代码。在`addWithCuda`函数中,展示了如何分配计算单元并在GPU上执行并行计算。最后,讨论了CUDA编程的核心——线程概念和并行化的本质,强调理解并发性和局部性对于充分利用GPU性能的重要性。建议读者深入研究官方文档以深化理解。

    前面搭建好了CUDA的开发环境,现在来开始第一个程序看看,新建项目:

    

    新建好后项目目录结构如下,一开始就一个文件"kernel.cu",cu后缀说明项目将使用英伟达编译器而不是Visual C编译器,它是混合了主机代码和设备代码的源文件,主机代码是在CPU运行(串行),通过kernel调用,把数据传给GPU设备设备来执行(并行),然后再把结果拷贝回主机,这个流程可以在addWithCuda函数中看到:

    

     重点的计算流程在addWithCuda函数中,这里分配了一个block,里面用数组大小个线程(这里为5)去计算,最后在109行把数据从设备空间拷贝到主机空间:

    

    运行结果如下:

    

    这里只是生成工程提供的一个模板,可以让我们了解到一些CUDA编程的基本方式,后面熟悉了可以直接把代码删了,改为我们实际需要的编程部分。

    并行编程的核心是线程的概念,一个线程就是程序中的一个单一的执行流,多个线程组成线程束,如上,使用5个线程组成一个束,如果使用CPU编程,我们肯定是在一个for循环来完成的,现在这样处理,其实就是循环并行化,类似OpenMP的做法。我们要知道,CPU的设计是用来运行少量比较复杂的任务,而GPU的设计是用来进行大量比较简单的任务,在进行并行编程时,要时刻记住并发性与局部性,知道如何合理拆分数据去进行运算以更好利用GPU的特性

    另外,还应该多看看官方文档:

    

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值