
CUDA
文章平均质量分 71
Arnold-FY-Chen
On the way of AI spiritual practice...
展开
-
解决DCNv2不能使用高版本pytorch编译的问题
由于pytorch自1.11版开始发生了很大变化,原来基于C实现的THC封装实现的调用cuda、cudnn和cublas的API(只能用NVIDIA的GPU)被基于C++实现的ATen和c10里的API代替(ATen通过vulkan实现支持NVIDIA以外的GPU, ATen代码在https://github.com/pytorch/pytorch/tree/main/aten/src/ATen),THC下的文件基本被删掉了,所以编译DCNv2时会遇到很多错误。原创 2023-09-03 13:43:33 · 1644 阅读 · 3 评论 -
CUDA-PointPillars有时崩溃的原因
CUDA-PointPillars有时崩溃的原因原创 2022-12-24 20:13:16 · 573 阅读 · 0 评论 -
CUDA中实现多线程访问公共临界区的问题
CUDA本来是用于多线程并发计算的,除了device、stream、event、thread级别的synchronize外,没有提供现成的锁的API实现,需要借助atomicCAS()自己写个简单实现。另外加锁功能不能用于同一个block里的线程之间,否则程序会卡死(因为同一个block里的线程属于同一个warp的线程在同一个SM上执行时同一时间周期内执行的指令是相同的!),也就是说要实现多线程并发访问时对公共临界资源的加锁,那么所有的线程必须分布在不同的block里。原创 2022-11-27 23:39:59 · 707 阅读 · 0 评论 -
如何写CUDA核函数高效实现将视频连续多帧图片转换成3D动作或行为识别模型所需的输入数据格式
3D动作或行为识别模型需要完成一个动作或者行为的相关的一定数量的连续画面作为输入来进行推理,从视频中抽取的帧一般转换后都是RGB格式的,连续多帧数据的顺序排列从通道看就是RGBRGBRGB...这样的排列顺序,但是3D动作或行为识别模型要求输入的数据格式是RRR...GGG...BBB...这样的通道顺序,那怎么把前面的格式转换成后面的格式呢?这里举例是基于把模型优化转换成TensorRT engine从而使用TensorRT来调用模型,TensorRT调用模型时存放模型输入数据的input buffe原创 2022-02-20 23:24:48 · 653 阅读 · 0 评论 -
GPU内存分明没人占用但是分配不了内存的解决办法
服务器上多张GPU卡被不同人在不同的docker容器中使用,有时GPU分明没人使用了,使用nvidia-smi查看也是内存没占用:可是在容器内运行程序到分配GPU内存时总是报内存溢出的错误:可以看到,就是这么分配2M内存都分配不出来!尽管程序里开头的部分已经指定了要使用的是这些内存没被占用的GPU: os.environ['CUDA_VISIBLE_DEVICES']='6,7'使用pip install pynvml安装pynvml后查看内存也是有大量的可用内存:from ..原创 2021-09-20 11:05:54 · 4534 阅读 · 1 评论 -
安装CUDA时报错packages have unmet dependencies的一个可能原因
先是想着尝鲜,安装了最新的CUDA11.4:wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pinsudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600wget https://developer.download.nvidia.com/compute/c...原创 2021-08-14 19:53:55 · 7115 阅读 · 1 评论 -
安装CUDA时报错ModuleNotFoundError: No module named Quirks的原因
不久前在实验使用https://github.com/StanfordVL/rubiksnet这个视频动作识别模型时,发现其对python版要求3.7以上,于是尝鲜下载了个python3.9.6编译安装:wget https://www.python.org/ftp/python/3.9.6/Python-3.9.6.tgztar xf Python-3.9.6.tgzcd Python-3.9.6sudo apt-get install build-essential python3-dev原创 2021-08-14 19:38:17 · 2902 阅读 · 0 评论 -
我的AI之路(33)--解决CUDA10.1和NVIDIA GPU新版驱动430.xx序列造成黑屏或循环登录问题
到目前为止,CUDA最新版仍然是10.1版,只是出了update2 https://developer.nvidia.com/cuda-downloads,自CUDA10.1开始,使用run文件安装过程中有了较大的变化,步骤进行了简化,也不再包含opengl文件所以无需--no-opengl-files参数,但是对于装有集成显卡+N卡的双显卡的环境,安装CUDA10.1有可能会造成问题。...原创 2019-10-03 01:58:22 · 2895 阅读 · 0 评论 -
我的AI之路(31)--在Jetson Nano上试验安装部署py-faster-rcnn
想试验英伟达的Jetson序列套件或者其他公司的类似边缘计算开发板能否跑我们的模型并部署到机器人上,于是买了块今年上市的Jetson Nano板子和一张64G的SD卡。 首先要到英伟达的网站https://developer.nvidia.com/embedded/downloads点击Jetson Nano Developer Kit SD Card Image然后...原创 2019-07-13 20:28:08 · 3387 阅读 · 3 评论 -
我的AI之路(16)--云服务器上安装和调试基于Tensorflow 1.10.1的训练环境
个人笔记本平时个人学习时用来跑跑小数据集的简单网络模型训练还行,如果跑大数据集加复杂网络模型,笔记本是扛不住的,跑得不怎么快不说,机身发热厉害、风扇一直呼呼响,估计你也会心疼,这样下去不知道能用几天几次笔记本估计要报废了,起码风扇容易坏,不是品质过硬的笔记本估计更是撑不住多久,另外有的模型代码训练过程中分配占用内存很大,用于笔记本的2G内存的GPU是撑不住的(这种情况下设置了per_pro...原创 2018-09-05 12:14:25 · 1882 阅读 · 0 评论 -
我的AI之路(15)--Linux下编译OpenCV3的最新版OpenCV3.4.1及错误解决
断断续续的花费了很长时间才从URL https://jaist.dl.sourceforge.net/project/opencvlibrary/opencv-unix/3.4.1/opencv-3.4.1.zip把OpenCV3的最新版OpenCV3.4.1下载到了本地,因为下载很慢,而且中途总是中断,所以下载一定要使用有断点续传功能的工具。为了方便有需要的同学下载,我把这个文件上传...原创 2018-07-14 23:04:02 · 3695 阅读 · 1 评论 -
我的AI之路(10)--如何在Linux下安装CUDA和cuDNN
这些天很忙有些时间没上来写东西了,怕时间久了忘记遇到过的各种错误及解决办法的细节,今天周末来补上前面没做完的功课。 前面说过,需安装什么版本的CUDA和cuDNN取决于你安装的Tensorflow GPU版本对应支持到了哪个版本的CUDA,Tensorflow1.8仍只支持到了CUDA9.0,所以你盲目下载最新的CUDA9.2安装的话,后面你安装gpu版Tensorflow后...原创 2018-07-07 15:41:57 · 5419 阅读 · 4 评论 -
我的AI之路(5)--如何选择和正确安装跟Tensorflow版本对应的CUDA和cuDNN版本
补充:最新的Tensorlfow2.0 gpu版要求使用的CUDA是CUDA 10.0,安装错版本了会用不了,最新的pytorch 1.3.1要求使用CUDA 10.1,如果你两者都需要使用,可以先把CUDA 10.0和CUDA 10.1都安装上,然后linux下把/usr/local/cuda链接到CUDA 10.0所在的目录, windows下吧CUDA v10.1改名成别的名字,然后把CUD...原创 2018-05-20 20:46:41 · 75401 阅读 · 132 评论