CUDA中自动初始化显卡设备宏

最新推荐文章于 2024-05-13 17:06:23 发布

转载最新推荐文章于 2024-05-13 17:06:23 发布 · 840 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/u/204616/blog/545284

文章标签：

#python

2019独角兽企业重金招聘Python工程师标准>>>

每次为了减少初始化的工作量，可以写入下面的宏。

#define CUT_DEVICE_INIT(ARGC,ARGV){    \
    int deviceCount;    \
    CUDA_SAFE_CALL_NO_SYNC(cudaGetDeviceCount(&deviceCount));    \
    if(deviceCount == 0){    \
        fprintf(stderr,"cutil error:no devices supporting CUDA.\n")    \
        exit(EXIT_FAILURE);    \
    }    \
    int dev=0;    \
    cutGetCmdLineArgumenti(ARGC,(const char **) ARGV,"device",&dev);    \
    if(dev < 0) dev=0;    \
    if(dev > deviceCount - 1) dev=deviceCount - 1;    \
    cudaDeviceProp deviceProp;    \
    CUDA_SAFE_CALL_NO_SYNC(cudaGetDeviceProperties(&deviceProp,dev));    \
    if(deviceProp.major < 1){    \
        fprintf(stderr,"cutil error: device does not support CUDA.\n");    \
        exit(EXIT_FAILURE);    \
    }    \
    if(cutCheckCmdLineFlag(ARGC,    (const char **) ARGV,"quiet") == CUTFalse)    \
        fprintf(stderr,"Using device %d:%s\n",dev,deviceProp.name);    \
    CUDA_SAFE_CALL(cudaSetDevice(dev));    \
}

#define CUT_EXIT(argc,argv)    \
    if(!cutCheckCmdLineFlag(argc, ( const char **)argv, "noprompt")){    \
        printf("\n Press ENTER to exit...\n");    \
        fflush(stdout);    \
        fflush(stderr);    \
        
        getchar();    \
    }    \
exit(EXIT_SUCCESS);

在主程序中：

int main(int argc,char** argv){
    CUT_DEVICE_INIT(argc,argv);
    ...主程序内容
    CUT_EXIT(argc,argv);
}

转载于:https://my.oschina.net/u/204616/blog/545284

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34018202

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

高性能计算平台建设——浅谈 OpenMP 和 CUDA 的异同点

AI天才研究院

08-27

858

随着计算机系统的不断发展、应用领域的扩展、硬件的普及，越来越多的人们期盼着能够实现更快的运算能力，更大的计算容量。同时，由于科技的进步，对算法设计要求也越来越高。所以，如何更好地充分利用现代计算机硬件资源、提升并行编程能力成为热门话题。最近两年来，以 NVIDIA CUDA 为代表的并行编程模型和框架已经成为非常热门的研究方向。它是一种面向GPU的并行编程模型，可以用来进行复杂的数据并行计算任务，尤其适合于高性能计算领域。

pytorch的c++/cuda扩展，CUDA编程

xx_xjm的博客

04-25

3014

我们知道C++，C这类的编程语言是为了让计算机执行我们的指令，确切一点是让计算机的cpu执行我们的执行，现在cuda编程则是要让显卡中的计算核心执行我们的指令；所以，cuda编程其实就是编写显卡中计算核心执行指令。为了区别于.cpp，.c这样的文件，我们取.cu后缀来指明当前的代码文件是给显卡用的；我们上面说了，.cu本质上还是写给CPU的，所以核函数其实也是C++函数的一种，只不过有一个特殊的限定词"__global__"，用以指明“这个C++函数，是用来调用显卡的！

参与评论您还未登录，请先登录后发表或查看评论

【指定GPU】使用CUDA_VISIBLE_DEVICES指定可见GPU时的一些坑

syh的技术记录

10-24

8077

结论：虽然这里代码输出当前device id是0，但其实指的是GPU：1，实际使用时也会使用GPU：1。由于设置CUDA_VISIBLE_DEVICES=1,2，所以只有GPU：1和GPU：2对代码可见，代码会认为可见的第一个GPU（即GPU：1）的id为0。

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备

icee

08-08

1万+

目的：使用CUDA环境变量CUDA_VISIBLE_DEVICES来限定CUDA程序所能使用的GPU设备环境：系统：Win10 环境：Opencv3.4.0/4.1.0 显卡：1080ti 问题实际项目中使用了一个GPU程序，在双卡1080ti机器上运行，程序会自动搜寻并使用0号和1号GPU卡。性能测试要求程序只运行在一张GPU卡上，但程序没有参数设置GPU的地方。解决方式采取CUD...

【PyTorch】设置CUDA_VISIBLE_DEVICES无效的问题以及多卡使用以及CUDA out of memory问题

医学影像学习笔记

04-11

5757

方法1：理想情况下，。如果在设置 torch.backends.cudnn.benchmark 之后调用 CUDA_VISIBLE_DEVICES 变量，则更改 CUDA_VISIBLE_DEVICES 变量将不起作用。

Pytorch基础：torch.cuda.set_device函数

前进，才知道自己的渺小

05-13

6492

torch.cuda.set_device函数用于设置当前使用的cuda设备，在当拥有多个可用的GPU且能被pytorch识别的cuda设备情况下（环境变量CUDA_VISIBLE_DEVICES可以影响GPU设备到cuda设备的映射）。

【Autoware 1.13无CUDA安装秘籍】：新手也能轻松上手的自动驾驶软件安装指南

![【Autoware 1.13无CUDA安装秘籍】：新手也能轻松上手的自动驾驶软件安装指南]...# 1. Autoware 1.13概述与安装准备 ## 1.1 Autoware 1.13简介 Autoware 1.13是针对自动驾驶车辆的开源软件平台，集成了多种感知、...

服务器离线安装cudatoolkit

热门推荐

AI小白炼金术师

04-30

8万+

RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

day-3,cdpSimplePrint

RtZero的博客

03-17

402

CUDA查询和选取设备信息

牧野的博客

01-16

1万+

CUDA查询设备信息CUDA C中的cudaGetDeviceProperties函数可以很方便的获取到设备的信息，函数原型是：cudaError_t CUDARTAPI cudaGetDeviceProperties(struct cudaDeviceProp *prop, int device);第二个参数device是从0开始的设备的编号。第一个参数prop指向的是一个cudaDeviceP...

浅谈CUDA零拷贝内存

收拾行囊重新出发

09-24

4340

今天看到有小伙伴提出了“零拷贝”的问题，由于本人以前用的也比较少，了解不多，因此打算好好研究一番，现做些总结。零拷贝内存是一种特殊形式的内存映射，它允许你将主机内存直接映射到GPU内存空间。因此，因此对GPU上的内存解引用时，如果是基于GPU的，那么就获得全局内存的高速带宽；如果GPU代码读取一个主机映射变量，它会提交一个PCI-E读取事务，主机会通过PCI-E总线返回数据。

CUDA学习笔记三

lucky_greenegg的专栏

08-09

3371

HOG行人检测算法的CUDA源码这个版本还不是完全封装的版本基本上还可以看懂从这个算法可以看到写CUDA程序的不易以及很多优化技巧 #include "internal_shared.hpp" #ifndef CV_PI_F #ifndef CV_PI #define CV_PI_F 3.14159265f #else #define CV_PI_F ((flo

Cuda入门

Nicholson的博客

08-24

1162

常用函数 Event CUDA中Event用于在流的执行中添加标记点，用于检查正在执行的流是否到达给定点。作用一，Event可用于等待和测试时间插入点前的操作，作用和streamSynchronize类似。作用二，Event可插入不同的流中，用于流之间的操作。不同流执行是并行的，特殊情况下，需要同步操作。同样，也可以在主机端操控设备端执行情况。作用三，可以用于统计时间，在需要测量的函数前后插入Event。调用cudaEventElapseTime()查看时间间隔; // create t

cuda编程中如何初始化常量存储器的值？

03-21

<think>嗯，用户问的是在CUDA编程中如何初始化常量存储器的值。这让我得先回忆一下CUDA的内存模型。CUDA中有常量存储器，也就是constant memory，这个区域是只读的，访问速度快，适合存储需要频繁读取的数据，比如系数矩阵或者参数。首先，用户可能已经知道常量存储器的基本概念，但不知道如何正确初始化。我需要分步骤解释清楚。记得在CUDA中，常量存储器使用__constant__修饰符声明，并且需要在主机端进行初始化，通过cudaMemcpyToSymbol函数来实现。然后，我应该举一个例子，比如声明一个常量数组，然后在主机代码中用cudaMemcpyToSymbol将数据复制进去。需要注意的是，常量存储器的大小是有限制的，每个模块默认是64KB，所以用户需要注意不要超过这个限制，否则会报错。另外，可能用户会疑惑为什么要用cudaMemcpyToSymbol而不是普通的cudaMemcpy，这时候需要解释两者的区别，cudaMemcpyToSymbol是专门用于将数据复制到设备端的符号（比如常量存储器变量）的，而普通的cudaMemcpy则是用于全局内存的拷贝。还有，可能用户会问是否可以在内核中修改常量存储器的值，这时候要强调常量存储器是只读的，在内核中不能修改，只能在主机端初始化。最后，应该提醒用户初始化步骤的顺序：先声明常量变量，然后在主机代码中分配内存并准备数据，接着调用cudaMemcpyToSymbol进行拷贝，最后启动内核使用这些常量数据。同时，错误处理也是重要的，比如检查每个CUDA API的返回值，确保初始化成功。</think>在CUDA编程中，初始化常量存储器（Constant Memory）的步骤如下： --- ### **1. 声明常量存储器** 使用 `__constant__` 修饰符在全局作用域声明常量变量： ```cpp // 在设备端声明常量存储器（默认最大64KB） __constant__ float const_data[1024]; // 示例：声明长度为1024的float数组 ``` --- ### **2. 主机端初始化** 在主机端（CPU）准备数据，通过 `cudaMemcpyToSymbol` API 将数据复制到常量存储器： ```cpp float host_data[1024] = {1.0, 2.0, ...}; // 主机端初始化数据 // 将数据拷贝到设备端常量存储器 cudaError_t err = cudaMemcpyToSymbol(const_data, host_data, sizeof(float)*1024); if (err != cudaSuccess) { printf("Error: %s\n", cudaGetErrorString(err)); } ``` --- ### **3. 内核中使用常量存储器** 在内核函数中直接访问常量存储器（无需参数传递）： ```cpp __global__ void my_kernel() { float value = const_data[threadIdx.x]; // 直接读取常量存储器 // 其他操作... } ``` --- ### **关键注意事项** 1. **容量限制** - 每个CUDA模块（即每个`.cu`文件编译结果）的常量存储器默认上限为**64KB** - 可通过编译选项 `--total-constant-size` 调整（需与硬件兼容） 2. **访问特性** - 常量存储器对所有线程**只读**，适合存储高频访问的全局参数（如系数矩阵、物理常量） - 以**广播机制**优化访问：当所有线程读取同一地址时，性能最优 3. **初始化时机** - 必须在调用内核函数**前**完成拷贝操作 - 可多次更新常量存储器内容（但需同步保证内核未运行） --- ### **完整示例代码** ```cpp #include <cstdio> __constant__ int const_array[3]; // 声明常量存储器 __global__ void kernel() { printf("Thread %d: %d\n", threadIdx.x, const_array[threadIdx.x % 3]); } int main() { int host_data[] = {10, 20, 30}; // 拷贝数据到常量存储器 cudaMemcpyToSymbol(const_array, host_data, sizeof(host_data)); kernel<<<1, 6>>>(); cudaDeviceSynchronize(); return 0; } ``` 输出结果： ``` Thread 0: 10 Thread 1: 20 Thread 2: 30 Thread 3: 10 Thread 4: 20 Thread 5: 30 ``` --- ### **替代方法：编译期初始化** 对于固定常量，可在声明时直接赋值（需使用 `const` 限定符）： ```cpp __constant__ const float PI = 3.1415926f; // 编译期初始化 ``` 通过以上步骤，即可高效利用CUDA的常量存储器优化程序性能。