使用DistrbutedDataParallel时，nvdiai-smi显示每个进程都占用GPU:0

最新推荐文章于 2023-04-04 07:01:45 发布

灰灰渔渔爱吃鱼

最新推荐文章于 2023-04-04 07:01:45 发布

阅读量438

点赞数

分类专栏：机器学习，深度学习文章标签： pytorch 深度学习

本文链接：https://blog.youkuaiyun.com/myknotruby/article/details/112635453

版权

机器学习，深度学习专栏收录该内容

8 篇文章

订阅专栏

使用mp.spawn(main, nprocs=args.num_gpus, args=(cfg, args,))和torch.nn.distributed.DistrbutedDataParallel时出现显卡在

用torch.load加载预训练模型或恢复训练时必须指定放在哪个GPU上，否则默认是每个进程都会在GPU:0 上占一块空间，用来存放恢复数据，而且很大。nvidia-smi的结果中可以看到0号显卡上会有每个进程的编号。

错误做法：

checkpoint = torch.load(pretrain_path)

正确做法：

checkpoint = torch.load(pretrain_path, map_location= lambda storage, loc: storage.cuda(args.local_rank))

args.local_rank是计算出来当前显卡在节点内的rank。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

灰灰渔渔爱吃鱼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

如何在Seeed Studio reComputer Nvdiai Jetson上安装ROS

m0_53134931的博客

08-14

616

ROS，即机器人操作系统，是一个广泛应用于机器人开发和研究的开源框架。最初由斯坦福大学开发，后来由Willow Garage继续开发，ROS1支持异构计算平台、各种编程语言和模块化设计。它通过Topics、Services和参数服务器提供通信机制，使用Catkin进行高效的包管理，并提供了一套丰富的开发工具，如rviz、gazebo和rosbag，使其成为构建和集成复杂机器人系统的重要工具。在本教程中，您将学习如何在系列设备上安装ROS Noetic。请按照以下步骤设置您的开发环境。

DDP/DistributedDataParallel 报错RuntimeError: Address already in use

江南蜡笔小新

12-16

5028

在测试pytorch多卡的时候报错： store = TCPStore(master_addr, master_port, world_size, start_daemon, timeout) RuntimeError: Address already in use 经查，是还有另外一个任务也在用DDP跑，解决方案： ...

参与评论您还未登录，请先登录后发表或查看评论

torch.DistributedDataParallel复盘

zkxhlbt的博客

08-02

288

用多GPU跑torch程序，DDP是最好的工具。在研究过程中基本是单机多GPU而不是多机多GPU，此处对单机多GPU的情况做一个总结。 import torch.DistributedDataParallel as DDP import torch.distributed as dist 用法：由于是单机多GPU，所以rank == local_rank. 使用argparse从外部获取–local_rank后，加入dist.init_process_group(backend=‘nccl’) 这一句话

实践教程｜GPU 利用率低常见原因分析及优化

3D视觉工坊

04-04

2809

来源丨小白学视觉编辑丨极市平台一、GPU 利用率的定义本文的 GPU 利用率主要指 GPU 在时间片上的利用率，即通过 nvidia-smi 显示的 GPU-util 这个指标。统计方式为：在采样周期内，GPU 上面有 kernel 执行的时间百分比。二、GPU 利用率低的本质常见 GPU 任务运行流程图如下：如上图所示，GPU 任务会交替的使用 CPU 和 GPU 进行计算，当 CPU 计算成为...

`nvidia-smi`查看GPU状态，显示0%利用率却只有十几M显存可用？

抄而不思则废

09-22

6749

先用nvidia-smi命令查看GPU状态：问题在这：不能只看0%，还要看显存使用量。 Memory-usage 表示显存使用量。volatile GPU-Util表示GPU利用率，表示GPU计算单元的利用率，0%表示没有使用。什么情况会出现显存满了，但GPU吕勇率仍未0%呢？可能的情况就是程序将数据读入了内存，但是没有任何计算任务，然后程序也不退出，就一直在那运行着。所以可以查看哪些占用显存...

CUDA之nvidia-smi命令详解

热门推荐

mjiansun的专栏

12-05

10万+

nvidia-smi是用来查看GPU使用情况的。我常用这个命令判断哪几块GPU空闲，但是最近的GPU使用状态让我很困惑，于是把nvidia-smi命令显示的GPU使用表中各个内容的具体含义解释一下。这是服务器上特斯拉K80的信息。上面的表格中：第一栏的Fan：N/A是风扇转速，从0到100%之间变动，这个速度是计算机期望的风扇转速，实际情况下如果风扇堵转，可能打不到显示的转速...

GPU状态监测 nvidia-smi 命令详解

FergusJ的博客

12-09

3111

GPU状态监测 nvidia-smi 命令详解

PyTorch 代码中 GPU 编号与 nvidia-smi 命令中的 GPU 编号不一致问题解决方法

sdnuwjw的博客

12-24

1万+

问题描述 nvidia-smi -L 查看可用 GPU 列表 GPU 0: Quadro Kxxx (UUID: GPU-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx) GPU 1: GeForce RTX xxxx (UUID: GPU-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx) pytorch 代码中查看可用 GPU 列表 device = torch.device("cuda:1" if torch.cuda.is_available()

ubuntu 18.04 两张GPU显卡，nvidia-smi只显示一张

yasugongyou1989的博客

06-07

2万+

ubuntu 18.04 两张GPU显卡，nvidia-smi只显示一张1. BIOS能检测PCI两张显卡；正常；2. lspci |grep NVIDIA结果3.ls -l /dev/nvidia*4. 重装nvidia驱动，问题未解决；环境：ubuntu 18.04 + 2张NVIDIA RTX 2080TI + cuda10；现象如图： nvidia-smi结果只显示其中一张显卡；排查过程： 1. BIOS能检测PCI两张显卡；正常；调换位置也能检测到，基本排除硬件问题； 2. lspc

Pytorch torch.distributed 实现单机多卡分布式训练

PanYHHH的博客

12-26

1万+

一、分布式训练的优势： torch.nn.DataParallel可以使我们方便地将模型和数据加载到多块gpu上，实现数据并行训练，但存在着训练速度缓慢、负载不均衡的问题。相比之下，torch.distributed具有以下几点优势： 1. distributed是多进程的，会分配n个进程对应n块gpu，而DataParallel是单进程控制的，所以存在着PIL（全局解释器锁）的问题。 2. （主要优势）distributed在每个进程内都维护了一个optimizer，每个进程都能够独立完成梯度...

torch.nn.parallel.DistributedDataParallel 小结

u012796629的博客

01-13

839

config添加 parser.add_argument('--local_rank', type=int, default=-1) train中添加 import torch.distributed as dist from torch.utils.data.distributed import DistributedSampler 在有写操作时，注意判断local_rank 初始化 dist.init_process_group(backend='nccl') torch.cuda.

在训练中，使用nvidia-smi观察gpu使用情况，发现，显存占用过多。但gpu利用率一直为0.

Labiod的博客

04-03

3880

解决方法：在不适用cond虚拟环境的情况下，重新安装tensorflow-gpu和keras。卸载之前的版本： conda uninstall tensorflow-gpu conda uninstall keras 安装新的版本：先执行： conda install tensorflow-gpu 后执行： pip install keras 后一个语句使用p...

GPU显存占满利用率GPU-util为0

啷个哩个啷

09-10

4万+

1. ????问题描述运行程序的时候提醒显存不够，查看了一下nvidia-smi，确实显存占满了，但是GPU-Util，gpu利用率有三个都是0，只有一个是56% 搜索后发现这个现象的原因还比较普遍，但是似乎没有几个可以很好解决这个问题，参考：脚本之家的文章：Pytorch GPU内存占用很高,但是利用率很低如何解决，转载自优快云博客：Pytorch GPU内存占用很高，但是利用率很低， ✅总结自优快云博客：深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且

PyTorch DataParallel的一些坑点和使用技巧

qq_43714612的博客

08-03

8493

1. 报错PyTorch DataParallel RuntimeError: expected device cuda:1 but got device cuda:0 原因是直接使用了DataParallel作为神经网络。 # 可能报错的写法 model = DataParallel(Res_Net()) out = model(input) # 解决办法 model = DataParallel(Res_Net()) model = model.modukle() out = model(input)

nvidia-smi命令的参数解读

数据科学爱好者

05-06

5581

在命令行终端输入nvidia-smi，可以进入nvidia的系统管理界面，查看主机的显存使用情况。图中参数的含义：GPU:GPU编号Name:GPU的名称Persistence-M:持续模式，默认为关闭，比较节能，如果设置成on,耗能比较大，但新的GPU应用启动时，花费的时间更短Fan:风扇转数，在0~100%之间变化Temp:GPU的温度，单位为摄氏度Perf:性能状态，从P0到P12,P0表示...

pytorch DataParallel 多GPU使用

哈哈哈的博客

11-03

998

import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader # Parameters and DataLoaders input_size = 5 output_size = 2 batch_size = 30 data_size = 100 device = torch.devi...

pytorch常见分布式训练报错（另备忘模型分布式后，named_modules,前会加module.）

GZKPeng的博客

08-26

4735

1、–nproc_per_node=设置错误，比如就2块可见卡，设置3，那么代码中这行torch.cuda.set_device(args.local_rank)2、在使用“DistributedDataParallel”时，model没有先放在GPU上，而是默认的CPU。3、在优化器中添加参数时，获取参数应该用未DDP封装的model，如果有DDP封装的model就会报如下错误：......

查看显存使用情况：nvidia-smi

A_John 的博客

03-20

6311

# nvidia-smi NVIDIA 系统管理接口（nvidia-smi）是一个命令行实用程序，基于 NVIDIA 管理库 (NVML)，旨在帮助管理和监控 NVIDIA GPU 设备。

基于PyTorch使用大batch训练神经网络

mingo_敏

04-21

6967

如果你的 GPU 只能处理很少的样本，你要如何训练大批量模型？ 1 在一个或多个 GPU 上训练大批量模型当增大batch size时，经常会遇到CUDA RuntimeError：内存不足，但是为了提高性能，我们又需要增大batch size时，可以试试梯度累积。梯度下降优化算法的五个步骤。与之对等的 PyTorch 代码也可以写成以下五行： predictions = model...