【AI实战】CUDA 编程入门及开源项目代码分享

原创已于 2022-11-07 15:22:48 修改 · 5.2k 阅读

55 ·

CC 4.0 BY-SA版权

文章标签：

#CUDA

于 2022-11-06 22:18:17 首次发布

人工智能同时被 2 个专栏收录

113 篇文章

订阅专栏

深度学习

94 篇文章

订阅专栏

本文介绍了CUDA的基础概念及其在并行计算领域的应用。详细讲解了如何利用CUDA进行GPU编程，包括向量和矩阵相加的具体实现。此外，还提供了丰富的学习资源及开源项目链接。

部署运行你感兴趣的模型镜像

【AI实战】CUDA 编程入门

CUDA 简介
官方文档
简单的代码
开源学习的代码
参考

CUDA 简介

CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。

CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了 CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。

开发人员可以使用C语言来为CUDA™架构编写程序，所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。（来源：百度百科）

随着显卡的发展，GPU越来越强大，而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。

如此强大的芯片如果只是作为显卡就太浪费了，因此NVIDIA推出CUDA，让显卡可以用于图像计算以外的目的。

CUDA（Compute Unified Device Architecture）是一个新的基础架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。

CUDA的SDK中的编译器和开发平台支持Windows、Linux系统，可以与Visual Studio2005，2008，2010集成在一起。

官方文档

NVIDIA CUDA C++ Programming Guide
地址：https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html
CUDA C++ Best Practices Guide

地址：https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html
CUDA C编程权威指南

英文原版叫《Professional CUDA C Programming》
pdf文件地址：http://www.hds.bme.hu/~fhegedus/C++/Professional%20CUDA%20C%20Programming.pdf

简单的代码

将大小为N的两个向量 A 和 B 相加，并将结果存储到向量 C 中：

// Kernel definition
__global__ void VecAdd(float* A, float* B, float* C)
{
    int i = threadIdx.x;
    C[i] = A[i] + B[i];
}

int main()
{
    ...
    // Kernel invocation with N threads
    VecAdd<<<1, N>>>(A, B, C);
    ...
}

以下代码将大小为 N x N 的两个矩阵 A 和 B 相加，并将结果存储到矩阵 C 中：

// Kernel definition
__global__ void MatAdd(float A[N][N], float B[N][N],
                       float C[N][N])
{
    int i = threadIdx.x;
    int j = threadIdx.y;
    C[i][j] = A[i][j] + B[i][j];
}

int main()
{
    ...
    // Kernel invocation with one block of N * N * 1 threads
    int numBlocks = 1;
    dim3 threadsPerBlock(N, N);
    MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);
    ...
}