cuda代码高效策略--b站看课的笔记

最新推荐文章于 2025-06-05 20:39:27 发布

不爱吃香菇的干饭少年

最新推荐文章于 2025-06-05 20:39:27 发布

阅读量466

点赞数

分类专栏： cuda 文章标签： jvm java 面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_43594926/article/details/129365457

版权

1.1 高效公式

在这里插入图片描述

在这里插入图片描述要么增大数据量，要么减少每个线程的内存（每个线程读取的数据量变少，每个线程的读取数据的速度变快（转变存储方式，对读取慢的地方做优化–合并全局内存））

1.2 合并全局内存

在这里插入图片描述一个线程读取一个数据，读取数据的方式有三种

数组是连续的，按照顺序读----
固定步长读取，比如每隔两个读一个
随机读取，在任意位置开始获取数据

下面代码显示，假设g是全局内存，threadIdx.x是当前的线程号，意思是，当前线程号是多少就读取这个对应的数组，线程号连续所以读取的数据是连续的。
尽量让总的数据量和线程号挂钩去读取

1.3 避免线程发散

在这里插入图片描述
一个kernel中的所有线程都跑完才叫做运行结束，决定最后速度的是，执行时间最慢的那个

每个线程执行的次数不一样，一号线程执行一次loop，二号线程执行两次loop.

2 cuda各种内存的代码使用

在这里插入图片描述

本地变量，直接在kernel里面定义初始化，使用
在这里插入图片描述
全局变量都是使用指针去执行的，必须进行数据copy

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。