nvidia 各 GPU 架构匹配的 CUDA arch 和 CUDA gencode

原创于 2025-04-01 23:21:07 发布

· 2k 阅读

5 ·

版权

文章标签：

#GPU #CUDA #nvidia

CUDA 专栏收录该内容

11 篇文章

订阅专栏

使用 NVCC 进行编译 cuda c(.cu)时，arch 标志 (-arch) 指定了 CUDA 文件将为其编译的 NVIDIA GPU 架构的名称。
Gencodes (-gencode) 允许更多的 PTX 代，并且可以针对不同的架构重复多次。

NVIDIA 架构名称的列表，以及它们具有的计算能力：

Fermi	Kepler	Maxwell	Pascal	Volta	Turing	Ampere	Lovelace	Hopper
sm_20	sm_30	sm_50	sm_60	sm_70	sm_75	sm_80	sm_90	sm_100
	sm_35	sm_52	sm_61	sm_72		sm_86
	sm_37	sm_53	sm_62

Fermi 和 Kepler 从 CUDA 9 和 11 开始弃用
Maxwell 从 CUDA 12 开始弃用
Lovelace 是取代 Ampere (AD102) 的微架构

什么时候应该使用不同的gencodes或cuda arch？

当编译 CUDA 代码时，应该始终只编译一个-arch与最常用的 GPU 卡匹配的标志。这将实现更快的运行时，因为代码生成将在编译期间发生。
如果只提及-gencode，而忽略-arch标志，则 CUDA 驱动程序将在JIT编译器上生成 GPU 代码。

当想要加速 CUDA 编译时，想要减少不相关的 -gencode 标志的数量。但是，有时可能希望通过添加更全面的 -gencode 标志来获得更好的 CUDA 向后兼容性。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

哦豁灬

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CUDA_代码在编译时arch和gencode的设置说明_SM(流式多处理器)

jialibang的博客

08-27

1948

SM(Streaming Multiprocessing):流式多处理器 https://blog.youkuaiyun.com/weixin_40427089/article/details/86741198 https://www.cnblogs.com/physutech/articles/10928077.html Nvidia GPU架构 - Cuda Core，SM，SP等等傻傻分不清？ https://blog.youkuaiyun.com/asasasaababab/article/details/8044

RTX30系显卡 CUDA11 编译yolo cpp dll报错 MSB3721 命令““C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11

u011779224的博客

12-28

3650

RTX30系显卡 CUDA11 编译yolo cpp dll报错 MSB3721 命令““C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1\bin\nvcc.exe”… 详细报错： MSB3721 命令““C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.1\bin\nvcc.exe” -gencode=arch=compute_30,code=“sm_30,compute_30” -

参与评论您还未登录，请先登录后发表或查看评论

Cuda __CUDA_ARCH__宏

Kelvin_Yan的专栏

12-14

2307

__CUDA_ARCH__宏

关于编译CUDA时的ARCH参数

Vingnir的博客

12-27

1850

ARCH 代表着目标GPU的计算能力（Compute Capability），这是一个特定于NVIDIA GPU架构的指标，用于表明GPU支持的特性和指令集。另外，使用命令行工具如 nvidia-smi 或者在CUDA编程环境中使用相应的API也可以查询到GPU的计算能力。每个CUDA兼容的NVIDIA GPU都有一个特定的计算能力版本号，它决定了该GPU支持的CUDA特性和指令集。当编译CUDA程序时，指定正确的计算能力对于优化性能和确保程序能在特定的GPU上正确运行是非常重要的。

NVIDIA之获得显卡GPU_ARCHS值的方法

ZONGXP的博客

05-28

1万+

我们在使用源码编译带cuda的opencv时，需要设置显卡的CUDA_ARCH_BIN，本文介绍一下获得该值的方法方法一安装好cuda之后，可以从cuda sample中获得 cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make ./deviceQuery 如上，运行后输出信息如下 nvidia@nvidia-X10SRA:/usr/local/cuda/samples/1_Utilities/deviceQuery$ .

CUDA 的编译过程

研究兴趣：智能物联网、嵌入式系统、人工智能

02-11

1262

最近DeepSeek的火爆带火了一个词PTX，很多人说DS使用PTX绕过了英伟达的CUDA生态，其实这里面有很深的误解，今天简单介绍一下英伟达CUDA的编译过程。从上面的过程可以看出，DS并没有绕开英伟达的GPU，只是相当于用汇编代码写了一些函数，从而获得了更高的执行效率。这种做法实际上和英伟达的技术绑得更紧了。

英伟达PTX指令集与各CUDA版本的关系

热门推荐

sinat_41852207的博客

06-05

1万+

错误 MSB3721 The command ""C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin\nvcc.exe" -gencode=arch=compute_30,code=\"sm_30,compute_30\" -gencode=arch=compute_75,code=\"sm_75,compute_7...

每日一坑之显卡算力过高的幸福烦恼用3090运行ostrack，报错UserWarning: NVIDIA GeForce RTX 3090 with CUDA capability sm_86

Ran010511的博客

08-22

913

3090运行ostrack，报错UserWarning: NVIDIA GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current

Matching SM architectures (CUDA arch and CUDA gencode) for various NVIDIA cards

qq314000558的专栏

06-20

2938

I’ve seen some confusion regarding NVIDIA’s nvcc sm flags and what they’re used for: When compiling with NVCC, the arch flag (‘-arch‘) specifies the name of the NVIDIA GPU architecture that the CUDA f...

cuda – 在CMake中确定我需要的nvcc所需的gencode(compute_,arch_)值

u010451780的专栏

09-25

2374

cuda – 在CMake中确定我需要的nvcc所需的gencode(compute_,arch_)值时间2019-08-11 标签 cuda cmake build-automation detection 栏目 Linux 我正在使用CMake作为我的代码的构建系统,它涉及CUDA.我正在考虑自动执行决定哪个compute_XX和arch_XX需要传递给我的nvcc以便为我当前机器上的GPU编译的任务. >有没有办法做到这一点： >使用NVIDIA GP...

[深度学习][转载]CUDA arch和CUDA gencode对应关系

FL1623863129的博客

04-16

5389

NVIDIA 显卡架构匹配 CUDA arch 和 CUDA gencode

子燕若水的博客

03-09

5608

【代码】NVIDIA 显卡架构匹配 CUDA arch 和 CUDA gencode。

cuda版本和ARCH计算力匹配，caffe nvcc fatal : Unsupported gpu architecture ‘compute_75‘

邹九的个人博客

12-19

1460

在2080ti安装caffe的时候，编译报错了的，主要是ARCH不支持compute_75，这个主要还是cuda的版本过低导致的，要使用大于9.0的版本各个cuda版本和arch对应的情况 Turing Compatibility Guide :: CUDA Toolkit Documentation (nvidia.com)https://docs.nvidia.com/cuda/turing-compatibility-guide/index.html#verifying-turing-compa

CUDA编程（二）--基础关键字及函数说明

sinat_25267157的博客

08-20

787

_host__定义了主机端的函数，在主机端调用，主机端执行的函数，也就是我们正常的c/c++的函数，如果不加任何的修饰符，默认就是__host__ 函数，这些函数只为主机端编译；__global__和 __host__不能同时使用；但是__device__和__host__可以同时使用，这个函数会同时为主机端和设备端编译。代码中可以用__CUDA_ARCH__这个宏来区分主机和设备端以及不同架构的代码。global（GPU，主机调用GPU执行）

ubuntu查看CUDA_ARCH_BIN

m0_69253695的博客

02-24

705

【代码】ubuntu查看CUDA_ARCH_BIN。

VS2019 OpenCV 4.4 CUDA10.0 编译中的坑

爬山的咸鱼

11-16

2673

WIN10 VS2019编译OpenCV 4.4 + CUDA10.0 遇到的坑。大体步骤网上很多细节不写了，主要写下其中遇到的几个坑。一.CUDA_ARCH_BIN 一定填写修改 CUDA_ARCH_BIN 的值（显卡算力值*10），否则编译成功后运行也会出错。下面是官网提供算力表，截了一部分，没有合适自己的显卡可以官网查。 https://developer.nvidia.com/zh-cn/cuda-gpus 二. VS与CUDA的对应关系 CUDA源码中会对VS版本做一些限制，就像本