GPU DCU 移植

原创

已于 2023-03-07 17:11:07 修改 · 770 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#其他

于 2023-03-07 17:01:35 首次发布

本文介绍了GPU和DCU在调用及函数使用上的差异，如GPU使用`vectorAdd<<<...>>>`，而DCU使用`hipLaunchKernelGGL`。在编译构建系统修改方面，对于简单程序只需替换CUDA编译器为HIP编译器，如`nvcc`到`hipcc`，并调整相应库。对于复杂项目，可能涉及大规模文件和依赖管理，需要修改如cmake等构建系统，确保CUDA库被正确替换为HIP库，如cuBLAS转hipBLAS，并设置正确的GPU架构参数。

#include<cuda_runtime.h>        ->      #include<hip/hip_runtime.h>
cudaError_t err = cudaSuccess           hipError_t err = hipSuccess

GPU和DCU调用和函数的方法不一样

gpu:vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, numElements);

DCU：hipLaunchKernelGGL(vectorAdd, dim3(blocksPerGrid), dim3(threadsPerBlock), 0, 0, d_A, d_B, d_C, numElements);

编译构建系统修改

简单程序（文件数量少，编译构建依赖关系

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CS_JL

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

国产加速器海光DCU&GPGPU深算处理器异构编程实战（下）

qq_27815483的博客

08-26

2365

Fortran语言自20世纪50年代诞生至今，一直被广泛应用于计算物理学、计算化学、流体力学、气候预测、有限元分析等计算密集的学科领域。同C/C++语言一样，Fortran语言也是科学/工程计算领域的主流编程语言，使用Fortran语言编写的应用程序运行在世界各地大大小小的计算集群上，为人类的各种研究与创新提供数据支撑。

国产加速器海光DCU&GPGPU深算处理器异构编程实战（上）

qq_27815483的博客

08-25

4807

我们也简单概括并比较了CPU和类GPU架构，可以看出CPU和类GPU架构在围绕低延迟和高吞吐量上的架构设计的巨大差异，这种差异必然会导致编程方式上的不同。DCU作为类GPU架构的一种也具有与类GPU相似的特性。因此，我们在详细开展DCU编程介绍之前，首先对DCU系统的硬件架构进行详细的介绍，这样大家在后续章节学习编程和程序优化的时候就会对DCU编程有更深入的理解。本章将会从DCU硬件架构和DCU节点系统架构两个方面开展详细的架构介绍。

参与评论您还未登录，请先登录后发表或查看评论

DCU项目总结

weixin_30287169的博客

04-27

396

1、什么是DCU 在某些基站无法覆盖的地方，如大型体育馆内部1楼、2楼。。，此时通过DCU为这些地方提供信号 2、DCU组成 3、我们需要做的 PC通过进入UMPT网关，在一个网页中使用自定义指令集控制系统，这些指令是我们在高软【应用层】中写的转载于:https://www.cnblogs.com/judes/p/8956229.html...

曙光超算平台操作之深度学习

baobao135的博客

09-19

1万+

超算平台操作

GPU/DCU减少cudaMemcpy/hipMemcpy时间方案

sinat_35360418的博客

04-02

7788

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 GPU/DCU减少cudaMemcpy/hipMemcpy时间方案前言一、传输延迟测试二、减少传输时间方案1.数据重用2.Pinned Memory3.高维矩阵传输4.传输、计算时间重叠5.批量传输、选择大粒度并行总结前言 CUDA是GPU加速器上的编程语言，HIP是DCU加速器上的编程语言，二者生态相似，CUDA可通过hipify工具转换为HIP HIP docs: https://rocmdocs.amd.com/en/late

在 HIP cuda kernel重塞进一句汇编语言，运行成功，纪念一下；没找到资料介绍方法

eloudy的专栏

05-23

638

操作系统：ubuntu 20.04。平台：ROCm 5.4.3。

万字学习——DCU编程实战

zzzzzucc的博客

07-10

3372

程序是用两种处理器执行的，这称为异构计算CPU和DCU的关系是主从关系，会用一个抽象的概念主机（host）来指代CPU，设备（device）来指代DCU。对于设备端执行的核函数，我们需要单独编写代码，并在核函数前加__global__修饰符以区分，核函数中还可以调用在设备端执行的函数，这些函数前需要加__device__修饰符。主机调用核函数后会继续执行后面的主机端代码，而设备端则会根据配置启动多个线程同时执行核函数。核函数启动参数（Kernel launch configuration）

海光DCU异构编程开发

08-06

DCU指的是深度计算处理器（Deep-learning Computing Unit），是海光信息GPU架构的适用于计算密集型任务加速的协处理器产品。这个DCU产品的有趣在于，它基于海光DTK，全面兼容适配ROCm GPU计算生态，由此对齐CUDA生态...

CUDA程序开发——初识GPU

wjsjason的博客

03-10

1151

CUDA程序开发——初识GPU 通过阅读文本你将了解到： GPU的发展历史 GPU的产品类型并行计算中GPU的应用形式如何分析应用场景是否适合使用GPU GPU的开发平台 1. GPU发展历史 GPU一开始只是为了图形加速，替CPU分担工作。其主要用于显示图像、视频的编解码与显示、游戏渲染等工作，起初并不支持编程。在1999年之前还没有GPU这一概念，只是称为图形加速卡，1...

国产加速器海光DCU&GPGPU深算处理器程序开发常见问题

qq_27815483的博客

09-05

4006

国产加速器海光DCU&GPGPU深算处理器程序开发常见问题

CUDA和GPU介绍及两者之间的关系

善心怡

03-21

3546

前言：去年7月份来华科的时候博士师兄就和我说学的东西一定要整理成文档，这是一种习惯，以后查阅比较方便。我学的实现并行计算的CUDA，以前实验室还没有师兄师姐学过这个，我是第一个学CUDA的。由于是第个学，所以很多东西需要我自己一步一步去摸索。确实，从安装到调试，从查找资料到编程，遇到不少困难，但学到了很多东西。

超算平台国产DCU服务器运行Pytorch报错libglog.so.0、torch.cuda.is_available() Aborted 的解决办法

m0_62480812的博客

08-05

944

报错的原因是系统没有找到正确的pytorch_lib路径，许多小伙伴的第一反映是重新下载一个lib，其实服务器内部已经为我们准备好了pytorch_lib，很齐全，我们只需配置好环境变量即可。出现以上错误的原因是没有切换到正确的rocm编译器版本，可以运行下面的命令进行切换。在在本地创建一个pytorch_env.sh的文件，添加环境变量！第一次在超算平台使用pytorch时遇到了两个报错。

一、DCU学习

m0_61364716的博客

07-24

4518

CU是DCU的核心架构，这里需要明确一个并行的概念，DCU的并行性是真正的众核同时并发，所有的线程都会被分配到真实的计算核心(ALU)，这一点与CPU是显著不同的，当CPU运行的线程多于自己的核心数目时，那么CPU会基于时间片轮换让每个线程都可以获得计算资源，给人一种众多线程同时运行的假象。寄存器是比较重要的资源，和CPU相比，DCU上的寄存器数量非常多，包括了矢量寄存器和标量寄存器，每个线程有自己的矢量寄存器，最多可以用256个，而标量寄存器是被线程组共用的，每个线程组可以分配16~102个。

Transiting from CUDA to HIP （二）

weixin_44500921的博客

09-03

2242

为了解决这个问题，HIP（Heterogeneous-compute Interface for Portability）提供了一套宏定义，使得开发者可以编写可移植的代码，这些代码可以在 NVIDIA 的 CUDA 平台和 AMD 的 ROCm 平台上运行。是一个预定义的宏，用于指示当前编译的代码所针对的 NVIDIA GPU 的计算能力（Compute Capability）。为了正确编译包含 HIP 代码的文件，您需要确保编译器能够找到 HIP 的头文件，并且定义了正确的宏。

hipcc 编译 amd gpu kernel 和打包与解包的流程实验

eloudy的专栏

06-17

2424

编译的文件流：.hip kernel --(clang++)--> .o.o --(lld)--> .out.out --(clang-offload-bundler)--> .hipfb代码：操作过程：涉及到了三个命令：clang++ -o xxx.olld

AMD ROCm软件栈组件介绍

wsq_zqfl的博客

11-27

4195

ROCm（Radeon Open Compute）开源软件栈。在NVIDIA GPU上，术语“CUDA”通常是指GPU编程编译器、API和运行时库，但ROCm不那么单一，通常根据其组件进行描述。图1显示了ROCm中涉及的主要组件堆栈。ROCm的顶部面向用户的组件通常是HIPAPI可移植性接口，它与CUDA几乎相同，主要的实际区别只是API函数的名称。HIP程序中的GPU内核使用LLVM编译器的AMD GPU后端进行编译，并使用ROCclr（ROCm公共语言运行时）运行时库运行。

基于国产加速器海光DCU&GPGPU虚拟化功能用户指南（vDCU&vGPU）

qq_27815483的博客

09-18

4361

本文主要针对vDCU 虚拟化设备插件的安装与初步使用测试进行介绍，包括物理机、容器环境与kubernetes 集群环境下vDCU 设备的使用。

曙光云使用说明

最新发布

08-26

在GPU编程和深度计算单元（DCU）的代码优化中，关键在于利用硬件的并行计算能力，优化内存访问模式，并减少计算瓶颈。以下是一些常见的编程模型、代码示例以及优化技术。 ### CUDA编程模型简介 NVIDIA的CUDA是一种广泛使用的GPU编程框架，它允许开发者使用类C语言编写在GPU上执行的程序。核心概念包括： - **核函数（Kernel）**：在GPU上并行执行的函数。 - **线程块（Thread Block）**：一组线程，它们可以协作执行任务。 - **网格（Grid）**：由多个线程块组成的执行结构。以下是一个简单的CUDA核函数示例，用于两个向量相加： ```cuda __global__ void vectorAdd(int *a, int *b, int *c, int n) { int i = threadIdx.x; if (i < n) { c[i] = a[i] + b[i]; } } ``` 在主机代码中调用该核函数： ```cuda int main() { int a[] = {1, 2, 3, 4}; int b[] = {5, 6, 7, 8}; int c[4]; int n = 4; int *d_a, *d_b, *d_c; cudaMalloc(&d_a, n * sizeof(int)); cudaMalloc(&d_b, n * sizeof(int)); cudaMalloc(&d_c, n * sizeof(int)); cudaMemcpy(d_a, a, n * sizeof(int), cudaMemcpyHostToDevice); cudaMemcpy(d_b, b, n * sizeof(int), cudaMemcpyHostToDevice); vectorAdd<<<1, n>>>(d_a, d_b, d_c, n); cudaMemcpy(c, d_c, n * sizeof(int), cudaMemcpyDeviceToHost); cudaFree(d_a); cudaFree(d_b); cudaFree(d_c); return 0; } ``` ### GPU代码优化技术 1. **内存访问优化** - 使用**共享内存**来减少全局内存访问延迟。 - 确保**内存访问对齐**，以提高带宽利用率。 - 避免**内存访问冲突**，特别是在共享内存中。 2. **线程并行性优化** - 增加**线程块大小**，提高GPU利用率。 - 使用**warp-level并行性**，确保每个warp内的线程执行相同指令。 3. **计算优化** - 利用**寄存器变量**减少局部内存使用。 - 使用**浮点运算优化**，如单精度（float）代替双精度（double）以提高性能。 4. **指令级并行性（ILP）** - 在单个线程内安排多个独立操作，以提高吞吐量。 5. **流（Stream）与异步执行** - 利用CUDA流实现**数据传输与计算重叠**，提高整体效率。 6. **使用性能分析工具** - 使用**NVIDIA Nsight**或**nvprof**进行性能分析，识别瓶颈。 ### DCU（深度计算单元）编程与优化对于深度计算单元（如华为昇腾AI芯片），编程模型通常基于**异构计算框架**，例如： - **CANN（Compute Architecture for Neural Networks）**：华为昇腾AI芯片的编程接口。 - **MindSpore**：华为自研的AI框架，支持在DCU上运行。代码示例（MindSpore中定义一个简单的神经网络）： ```python import mindspore as ms from mindspore import nn, ops class SimpleNet(nn.Cell): def __init__(self): super(SimpleNet, self).__init__() self.dense = nn.Dense(10, 1) def construct(self, x): return self.dense(x) net = SimpleNet() input_data = ms.Tensor([[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0]]) output = net(input_data) print(output) ``` 优化技术包括： - **算子融合**：将多个操作合并为一个高效执行单元。 - **内存复用**：减少数据拷贝，提升内存带宽利用率。 - **自动并行**：利用框架自动分配任务到多个DCU核心。 ###