GentlemanLin-优快云博客

🌟MPI(Message Passing Interface)是一个消息传递接口标准MPI提供一个可移植、高效、灵活的消息传递接口库MPI以语言独立的形式存在，可运行在不同的操作系统和硬件平台上MPI提供与C/C++和Fortran语言的保定⭐️MPI版本：MPICH 是由美国阿贡国家实验室（Argonne National Laboratory）开发的一种高性能且可扩展的 MPI 实现。MPICH 被广泛用于研究和高性能计算环境，并且作为其他许多 MPI 实现的基础。

2024-06-21 15:41:21 1478

原创 Cell Linked List

/ 数据结构定义// 存储原子坐标的数组// 存储每个单元链表起始索引的数组// 存储每个单元链表结束索引的数组// 存储链表中每个原子索引的数组。

2024-06-20 13:50:20 1056

原创 CUDA编程-05

⭐️一系列将在GPU按顺序执行的操作。🌟CUDA流是一系列异步的CUDA操作，这些操作按照主机代码确定的顺序在设备上执行。流能封装这些操作，保持操作的顺序，允许操作在流中排队，并使它们在先前的所有操作之后执行，并且可以查询排队操作的状态。这些操作包括在主机与设备间进行数据传输，内核启动以及大多数由主机发起但由设备处理的其他命令。流中操作的执行相对于主机总是异步的。

2024-06-17 08:38:48 1416

原创 CUDA编程-04

⭐️CUDA并行计算适合大量计算场景下，而图像处理就是大量计算。例如高斯滤波，图像变换，特征提取，图像分类，目标检测，图像分割等。因此，学会如何在图像处理中使用并行计算非常具有应用价值。

2024-06-16 17:10:24 1764

原创 CUDA编程-03

⭐️在CUDA编程中，实现直方图是一种常见的并行计算任务。直方图用于统计数据集中的每个值或区间出现的次数。在GPU上进行直方图计算可以显著加速这种任务。🌟在并行计算中，应该如何实现直方图统计？直接做累加？假设初试数组大小为128，我们可以使用128个线程去读取线程对应idx位置的元素，再用d_bins[myBin]++;对该值数量进行累加。此时存在一个问题，d_bins[myBin]++;实际包含三个步骤：1.：从内存中读取的当前值。2.：将读取的值加1。：将增加后的值写回到内存中的。

2024-06-10 15:03:57 1214