Pytorch在多GPU下选择特定序号的GPU运行程序

最新推荐文章于 2023-12-14 10:16:59 发布

原创最新推荐文章于 2023-12-14 10:16:59 发布 · 2.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #gpu #python

深度学习专栏收录该内容

6 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

原先的代码可能如下：

device = torch.device("cuda:0" if torch.cuda.is_available() and not args.no_cuda else "cpu")
model = model.to(device)
if args.n_gpu > 1:
    model = torch.nn.DataParallel(model)

上面这段代码会指定序号为0的GPU作为初始加载的GPU，同时如果有多GPU的情况下，会使用该服务器上所有的GPU运行程序。假定服务器有8块GPU，序号就是0-7，该代码就会全部使用0-7的GPU。但是如果服务器上假设序号为0-3的GPU被人占用了，那怎么办？直接使用上述代码就会OOM，所以对上述代码修改，就是下面的代码：

device = torch.device("cuda:{}".format(4) if torch.cuda.is_available() and not args.no_cuda else "cpu")
model = model.to(device)
if args.n_gpu > 1:
    model = torch.nn.DataParallel(model, device_ids=[4,5,6,7])

这段代码将初始加载的GPU改为序号为4的GPU，并且在多GPU的情况下，选取了序号为4-7的GPU来运行代码，这样子在序号为0-3的GPU被占用时就不会和别人冲突了。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

4 条评论

zhang__zhang__ 2023.05.09
[code=python] NameError: name 'args' is not defined [/code] 博主，args之前是做什么定义的呀？
- Surpassall回复zhang__zhang__ 2023.05.10
  args就是存储参数的结构体，都是自定义的，n_gpu是args结构体的一个成员变量

weixin_43756818 2021.03.10
博主请问出现这样错误该怎么办 use_cuda = args.gpu[0]>=0 and torch.cuda.is_available() TypeError: 'int' object is not subscriptable
- Surpassall回复weixin_43756818 2023.05.10
  说明你的args.gpu是一个int，不是一个list