GPU内存分明没人占用但是分配不了内存的解决办法

部署运行你感兴趣的模型镜像

服务器上多张GPU卡被不同人在不同的docker容器中使用,有时GPU分明没人使用了,使用nvidia-smi查看也是内存没占用:

 可是在容器内运行程序到分配GPU内存时总是报内存溢出的错误:

可以看到,就是这么分配2M内存都分配不出来!尽管程序里开头的部分已经指定了要使用的是这些内存没被占用的GPU:

  os.environ['CUDA_VISIBLE_DEVICES']='6,7'

使用pip install pynvml安装pynvml后查看内存也是有大量的可用内存:

from pynvml import *
nvmlInit()
h = nvmlDeviceGetHandleByIndex(0)
info = nvmlDeviceGetMemoryInfo(h)
print(f'total    : {info.total}')
print(f'free     : {info.free}')
print(f'used     : {info.used}')

按照网上有人说的删除~/.nv或者卸载安装另外的版本都没有用!在程序里加

   torch.cuda.empty_cache()

也根本没用!另外,因为机器多人在做训练也不可能重启!最后发现,其实很简单,在运行程序时前面加个CUDA_VISIBLE_DEVICES变量指定GPU就可以了:

CUDA_VISIBLE_DEVICES="6,7" python test.py

 

另外发现,使用torch的cuda api统计内存占用是不准确的,只有总内存统计是准确的:

print("mem allocated:",torch.cuda.memory_allocated(7),torch.cuda.memory_reserved(7),torch.cuda.get_device_properties(7).total_memory)

得到的是

   mem allocated: 0 0 16945512448

可以看到,和pynvml的输出结果比,只有总内存是准确的!

 

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Arnold-FY-Chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值