- 博客(8)
- 收藏
- 关注
原创 CUDA编程-06
🌟MPI(Message Passing Interface)是一个消息传递接口标准MPI提供一个可移植、高效、灵活的消息传递接口库MPI以语言独立的形式存在,可运行在不同的操作系统和硬件平台上MPI提供与C/C++和Fortran语言的保定⭐️MPI版本:MPICH 是由美国阿贡国家实验室(Argonne National Laboratory)开发的一种高性能且可扩展的 MPI 实现。MPICH 被广泛用于研究和高性能计算环境,并且作为其他许多 MPI 实现的基础。
2024-06-21 15:41:21
1334
原创 Cell Linked List
/ 数据结构定义// 存储原子坐标的数组// 存储每个单元链表起始索引的数组// 存储每个单元链表结束索引的数组// 存储链表中每个原子索引的数组。
2024-06-20 13:50:20
880
原创 CUDA编程-05
⭐️一系列将在GPU按顺序执行的操作。🌟CUDA流是一系列异步的CUDA操作,这些操作按照主机代码确定的顺序在设备上执行。流能封装这些操作,保持操作的顺序,允许操作在流中排队,并使它们在先前的所有操作之后执行,并且可以查询排队操作的状态。这些操作包括在主机与设备间进行数据传输,内核启动以及大多数由主机发起但由设备处理的其他命令。流中操作的执行相对于主机总是异步的。
2024-06-17 08:38:48
1275
原创 CUDA编程-04
⭐️CUDA并行计算适合大量计算场景下,而图像处理就是大量计算。例如高斯滤波,图像变换,特征提取,图像分类,目标检测,图像分割等。因此,学会如何在图像处理中使用并行计算非常具有应用价值。
2024-06-16 17:10:24
1551
原创 CUDA编程-03
⭐️在CUDA编程中,实现直方图是一种常见的并行计算任务。直方图用于统计数据集中的每个值或区间出现的次数。在GPU上进行直方图计算可以显著加速这种任务。🌟在并行计算中,应该如何实现直方图统计?直接做累加?假设初试数组大小为128,我们可以使用128个线程去读取线程对应idx位置的元素,再用d_bins[myBin]++;对该值数量进行累加。此时存在一个问题,d_bins[myBin]++;实际包含三个步骤:1.:从内存中读取的当前值。2.:将读取的值加1。:将增加后的值写回到内存中的。
2024-06-10 15:03:57
1108
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人