为什么使用超算中心服务器单节点多GPU训练反而更慢

本文记录了在使用PyTorch进行图像算法训练时遭遇CPU资源不足导致的性能瓶颈。作者最初误以为是CUDA、cuDNN、磁盘读取速度、PyTorch版本、batch_size设置、num_work参数、分布式服务器配置或代码问题,最终发现是CPU核心数量不足所致。
部署运行你感兴趣的模型镜像

注:pytorch训练图像算法
因为没有申请多个CPU核心导致CPU加载数据等问题成为瓶颈!!!!!!
以此博客纪念逝去的两天光阴。
可以通过
top
watch -n 1 nvidia-smi等查看硬件信息
一开始发现并没有怎么利用CPU资源以为不是CPU的问题,其实不然。。。
一开始我以为是cuda没装好
我以为是cudnn没装好
我以为是磁盘文件加载慢
我以为是torch版本太低
我以为是batch_size设置太大
我以为是num_work设置太小
我以为是分布式服务器与单机不一样
我还以为是程序问题
no no no
就是因为CPU少了

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值