CUDA之Stream介绍

最新推荐文章于 2025-06-11 10:55:58 发布

原创

最新推荐文章于 2025-06-11 10:55:58 发布 · 6.5k 阅读

CC 4.0 BY-SA版权

文章标签：

CUDA Stream是一种异步机制，用于并行执行内存传输和GPU计算操作，提高数据吞吐量。通过创建和管理多个Stream，CUDA程序可以避免菊花链式的操作顺序，实现数据传输与计算的并行，从而有效利用GPU资源，尤其适用于处理大规模数据的深度学习和计算机视觉任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用到CUDA的程序一般需要处理海量的数据，内存带宽经常会成为主要的瓶颈。在Stream的帮助下，CUDA程序可以有效地将内存读取和数值运算并行，从而提升数据的吞吐量。

Cuda stream是指一堆异步的cuda操作，他们按照host代码调用的顺序执行在device上。
典型的cuda编程模式我们已经熟知了：
· 将输入数据从host转移到device
· 在device上执行kernel
· 将结果从device上转移回host

所有的cuda操作（包括kernel执行和数据传输）都显式或隐式的运行在stream中，stream也就两种类型，分别是：
· 隐式声明stream（NULL stream）
· 显示声明stream（non-NULL stream）

异步且基于stream的kernel执行和数据传输能够实现以下几种类型的并行：
· Host运算操作和device运算操作并行
· Host运算操作和host到device的数据传输并行
· Host到device的数据传输和device运算操作并行
· Device内的运算并行

由于GPU和CPU不能直接读取对方的内存，CUDA程序一般会有一下三个步骤：1）将数据从CPU内存转移到GPU内存（HtoD），2）GPU进行运算并将结果保存在GPU内存（DtoD），3）将结果从GPU内存拷贝到CPU内存（DtoH）。

如果不做特别处理，那么CUDA会默认只使用一个Stream（Default Stream）。在这种情况下，刚刚提到的三个步骤就如菊花链般蛋疼地串联，必须等一步完成了才能进行下一步。是不是很别扭？

200万优质内容无限畅学