CUDA流任务并行

最新推荐文章于 2025-10-04 17:50:45 发布

原创

最新推荐文章于 2025-10-04 17:50:45 发布 · 3.5k 阅读

13 ·

CC 4.0 BY-SA版权

CUDA流表示一个GPU操作队列，并且该队列中的操作将以指定的顺序执行。可以将每个流视为GPU的一个任务，并且这些任务可以并行执行，即相同流顺序执行，不同流并行执行；不同流并行执行时不同流所要执行的任务要没有依赖关系；当不手动创建流时，cuda将会默认一个流操作。

在硬件选择上，这里有一个概念，支持设备重叠功能，支持设备重叠功能的 GPU 能够在执行一个 CUDA C 核函数的同时，还能在设备和主机之间执行复制操作；这在流并行过程中很重要，我们假设有流A和流B，设备重叠就会允许流A在复制过程中同时流B进行核函数计算，这会大大加快速度；

cudaDeviceProp   prop;
int  whichDevice;
cudaGetDevice(&whichDevice);
cudaGetDevice(&prop, whichDevice);
if(prop.deviceOverlap){
   std::cout<<"the device  will handle overlaps"<<std::endl;
}

我们知道cudaMemcpy与CPU操作是同步的，为了实现设备重叠，cuda提供了cudaMemcpyAsync用于数据拷贝操作,它是异步的，不会等待复制完成就会执行程序的下一步；

但注意，cudaMemcpyAsync仅对分页锁定的主存储器有效，如果传入指向可分页存储器的指针，那么将返回一个错误；

页锁定的主机内存由cudaHostAlloc()分配。页锁定的主机内存也称为固定内存或不可分页内存，它的重要属性就是：操作系统将不会对这块内存分页并交换到磁盘上，从而确保了该内存始终驻留在物理内存中。因此，操作系统能够安全的使用应用程序

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

雨后森林xw

关注关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CUDA并行架构

PPdouluo的博客

09-20

2401

CUDA)是一种由NVIDIA推出的通用并行计算架构，该架构使GPU)能够对复杂的计算问题做性能速度优化。二、串并行模式高性能计算的关键是利用多核处理器进行并行计算。串行模式：将任务分成很多小任务，逐个依次进行。串并行模式：利用多核处理器同时处理多个子任务(前提是这些子任务不需要相互依赖，比如线程1的计算任务不需要用到线程2的计算结果)。为了加快大任务的计算速度，可以把一些独立的模块分配到不同的处理器上进行同时计算(这就是并行)，最后再将这些结果进行整合，完成一次任务计算。

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

不甘平凡的小鸟 2022.03.09
“所以为了高效利用CUDA流，提出了流宽度优先的概念” ---- 其实不然。当H2D和D2H是同一个引擎执行时，确实流宽度优先能获得更高的效率。但是，当H2D和D2H是不同引擎执行时，流深度优先反而是效率更高的。假设H2D和D2H的执行时间都是Tc，kenel执行的时间是2*Tc，当H2D和D2H是不同引擎执行时，深度优先的总执行时间是7Tc，宽度优先的执行时间是8Tc。