
GPU
文章平均质量分 52
Arnold-FY-Chen
On the way of AI spiritual practice...
展开
-
CUDA中实现多线程访问公共临界区的问题
CUDA本来是用于多线程并发计算的,除了device、stream、event、thread级别的synchronize外,没有提供现成的锁的API实现,需要借助atomicCAS()自己写个简单实现。另外加锁功能不能用于同一个block里的线程之间,否则程序会卡死(因为同一个block里的线程属于同一个warp的线程在同一个SM上执行时同一时间周期内执行的指令是相同的!),也就是说要实现多线程并发访问时对公共临界资源的加锁,那么所有的线程必须分布在不同的block里。原创 2022-11-27 23:39:59 · 707 阅读 · 0 评论 -
如何查看并准确找到占用GPU的程序
有时多人都在一段时间内同时使用公司共用的服务器上的GPU训练,有的网络的代码写得不好,虽然是按需获取GPU内存但停止训练了却仍然占用GPU没放,有的则采取的是预分配机制,一开始运行加载训练好了的模型时就占用大量内存(比如9-10G),没有进行识别推理也占用内存不放,多人共用的环境如果有人用完不及时停掉相关程序,很多GPU就被占了但空闲在那里,但又不好随便乱杀进程来释放,首先得确认一下...原创 2020-03-08 13:06:24 · 30987 阅读 · 0 评论 -
我的AI之路(40)--解决Ubuntu内核更新导致桌面启动出错登录界面无法显示的问题
最近服务器安装软件时被做了更新,Ubuntu16.04 LST的内核也被更新到了最新的GNU/Linux 4.4.0-171-generic x86_64,结果服务器重启后就出现这个以前经常见过的错误:The system is running in low-graphics mode 用之前的解决办法: 先检查确保/etc/modprob.d/下有blacklis...原创 2020-01-12 00:06:02 · 1872 阅读 · 0 评论 -
我的AI之路(16)--云服务器上安装和调试基于Tensorflow 1.10.1的训练环境
个人笔记本平时个人学习时用来跑跑小数据集的简单网络模型训练还行,如果跑大数据集加复杂网络模型,笔记本是扛不住的,跑得不怎么快不说,机身发热厉害、风扇一直呼呼响,估计你也会心疼,这样下去不知道能用几天几次笔记本估计要报废了,起码风扇容易坏,不是品质过硬的笔记本估计更是撑不住多久,另外有的模型代码训练过程中分配占用内存很大,用于笔记本的2G内存的GPU是撑不住的(这种情况下设置了per_pro...原创 2018-09-05 12:14:25 · 1882 阅读 · 0 评论 -
启用NVIDIA GPU驱动后每次Linux内核更新后图形界面进不去的问题
Ubuntu的内核更新比较频繁,自动更新打开后,如果你disable掉了系统默认的nouveau驱动启用了NVIDIA GPU卡对应的驱动(具体步骤参见我的AI之路(10)--如何在Linux下安装CUDA和cuDNN),可能经常遇到内核更新后在机器重启后发现登录界面的字体和图标变得不正常地超大而且输入登录口令后屏幕一闪又回到了登录界面,这说明NVIDIA GPU的驱动没有被加载,系统...原创 2019-04-27 18:42:02 · 3906 阅读 · 0 评论