
CUDA
文章平均质量分 61
cuda学习笔记
工头阿乐
实践是检验真理的唯一标准。
展开
-
CUDA编程之grid和block详解
然而,GPU硬件是专门设计来支持这种并行计算模型的,所以虽然线程在物理硬件上可能不是独立存在的,但是它们通过硬件架构和调度机制得到了有效的支持。总体来说,这两行代码定义了内核的执行配置,将整个计算空间划分为2个block,每个block包含4个线程。因此,整个执行配置定义了2x2的grid,其中包括4个2x2的block,总共16个线程。你可以将grid视为三维数组,其中x方向有2个元素,y方向有2个元素,z方向有2个元素。整体布局可以视为8个3x4x2的block,排列为2x2x2的grid。原创 2024-07-29 15:05:56 · 2035 阅读 · 1 评论 -
NVIDIA MPS详解
MPS多进程服务(Multi-Process Scheduling)是CUDA应用程序编程接口(API)的替代二进制兼容实现。从Kepler的GP10架构开始,NVIDIA就引入了MPS(基于软件的多进程服务),这种技术在当时实际上是称为HyperQ ,允许多个 流(stream)或者CPU的进程同时向GPU发射Kernel函数,结合为一个单一应用程序的上下文在GPU上运行,从而实现更好的GPU利用率。在单个进程的任务处理,对GPU利用率不高的情况下是非常有用的。原创 2024-06-13 15:54:09 · 2569 阅读 · 0 评论 -
windows系统CUDA的详细安装教程
hello,大家好,之前一直在ubuntu系统上做开发,今天给大家分享如何在windows系统上安装CUDA。首先需要下载两个安装包,CUDA toolkit 和 cuDNN,CUDA(Compute Unified Device Architecture)是由NVIDIA开发的并行计算平台和编程模型。它利用了NVIDIA的GPU(图形处理器)来加速计算任务,使得许多复杂的计算任务可以在GPU上并行处理,从而提高计算性能。原创 2024-04-23 14:14:48 · 14662 阅读 · 1 评论 -
深度学习环境搭建(一)之 Ubuntu 安装
到Ubuntu官网下载对应想安装的.iso系统镜像文件,以下ubuntu-20.04.4-desktop-amd64.iso为例备注:一般下载LTS版本,LTS=long term support,长期支持版本,维护更新周期一般为3-5年,一般都是稳定正式版本。原创 2022-02-28 10:39:43 · 2029 阅读 · 0 评论 -
深度学习环境搭建(六)之 Pytorch/TensorFlow安装
略原创 2022-02-28 10:46:42 · 516 阅读 · 0 评论 -
深度学习环境搭建(五)之 Anaconda安装
略原创 2022-02-28 10:45:51 · 343 阅读 · 0 评论 -
深度学习环境搭建(三)之 CUDA安装
切换到CUDA Sample目录,默认在/home/xxx/NVIDIA_CUDA-xxx/下。进入bin/x86_64/linux/release文件夹。安装完CUDA Driver后,就可以安装CUDA了。因为项目需要,这里安装的CUDA 11.4版本。如果驱动已经安装,不要选驱动。CUDA Sample测试。,找到要下载的版本。原创 2022-02-28 10:44:18 · 3699 阅读 · 0 评论 -
深度学习环境搭建(二)之 CUDA Driver 安装
安装完Ubuntu 20.04 系统并且成功进入桌面之后,会发现屏幕的分辨率很低,这是因为没有安装显卡驱动的缘故。下面是CUDA Driver的安装过程。安装NVIDIA TITAN Xp显卡驱动默认安装的显卡驱动不是英伟达的驱动,所以先把旧得驱动删除掉。sudo apt-get purge nvidia*添加Graphic Drivers PPAsud......原创 2022-02-28 10:41:58 · 3839 阅读 · 0 评论 -
深度学习环境搭建(四)之 CUDNN安装
安装完CUDA Driver和CUDA后,还需要安装CUDNN,NVIDIA用于深度学习GPU加速的库。原创 2022-02-28 10:45:02 · 7916 阅读 · 0 评论 -
查看NVIDIA GPU占用率方法
查看GPU占用率方法以及解决神经网络训练过程中GPU占用率低的问题。原创 2023-05-09 17:36:18 · 4533 阅读 · 0 评论 -
NVIDIA CUDA核函数编写注意事项之In-place
CUDA(Compute Unified Device Architecture,统一计算架构)是由NVIDIA所推出的一种集成技术,是其对于GPGPU(A General-Purpose Graphics Processing Unit)的正式名称。通过该技术,开发者可以利用NVIDIA的GeForce 8以后的GPU进行计算。极大加速计算型应用的效率。通常用于游戏开发、视频编解码、图像处理等领域。在编写CUDA核函数时,或者直接调用CUDA封装好的API时,通常会有需要in-place的需求。原创 2023-04-17 16:13:31 · 502 阅读 · 0 评论 -
CUDA效率优化之CUDA Graph的使用
GPU 架构的性能随着每一代的更新而不断提高。现代 GPU 每个操作(如kernel运行或内存复制)所花费的时间现在以微秒为单位。但是,将每个操作提交给 GPU 也会产生一些开销——也是微秒级的。实际的应用程序中经常要执行大量的 GPU 操作:典型模式涉及许多迭代(或时间步),每个步骤中有多个操作。如果这些操作中的每一个都单独提交到 GPU 启动并独立计算,那么提交启动开销汇总在一起可能导致明显的整体性能下降。CUDA Graphs 将整个计算流程定义为一个图而不是单个操作的列表。原创 2023-04-12 17:45:56 · 2314 阅读 · 0 评论 -
PyTorch训练模型时RuntimeError: CUDA out of memory. Tried to allocate 2.24 GiB (GPU 0; 1.83 GiB total capa
【代码】PyTorch训练模型时RuntimeError: CUDA out of memory. Tried to allocate 2.24 GiB (GPU 0;原创 2023-03-26 15:08:57 · 653 阅读 · 0 评论 -
PyTorch训练模型出现RuntimeError: Unable to find a valid cuDNN algorithm to run convolution问题
PyTorch训练模型出现RuntimeError: Unable to find a valid cuDNN algorithm to run convolution问题。原创 2023-03-26 10:45:26 · 881 阅读 · 0 评论 -
PyTorch训练模型时出现RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED报错
PyTorch训练模型时出现RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED报错。原创 2023-03-26 10:32:07 · 953 阅读 · 0 评论 -
NVIDIA查看CPU、内存、GPU、DLA使用情况
其它相关《英伟达显卡监控工具nvtop使用方法》原创 2022-12-14 15:03:18 · 4423 阅读 · 0 评论 -
NVIDIA监控工具nvtop使用方法
其它相关《NVIDIA查看CPU、内存、GPU使用情况》原创 2022-12-14 14:54:17 · 2592 阅读 · 0 评论 -
CUDA编程网格(Grid)和线程块(Block)和线程(Thread)的关系
CUDA中每一个线程都有一个唯一的标识ID—ThreadIdx,这个ID随着Grid和Block的划分方式的不同而变化,这里给出Grid和Block不同划分方式下线程索引ID的计算公式。1、 grid划分成1维,block划分为1维。2、 grid划分成1维,block划分为2维。3、 grid划分成1维,block划分为3维。6、 grid划分成2维,block划分为3维。8、 grid划分成3维,block划分为2维。9、 grid划分成3维,block划分为3维。原创 2022-06-23 13:44:58 · 2087 阅读 · 0 评论 -
EGLStream详解
视频流的数据量巨大,如果要在不同的进程间传输视频流就必须考虑一些数据传输的底层问题,比如尽量不要做拷贝。以及互斥问题,不能一个程序还没把一张图片读完,共享的内存就被改变了。EGLStream就提供了这样一种功能,支持多个进程间进行无拷贝的视频流传输。EGLStream主要原理是设置了producer和consumer。producer负责把图片放入到EGLStream流中,consumer主要是把图片从流上取出来。流是一系列顺序执行的命令。所以一个进程可以作为上一个命令的consumer,同时又是下一原创 2022-03-20 17:24:40 · 1070 阅读 · 0 评论