为什么使用超算中心服务器单节点多GPU训练反而更慢

最新推荐文章于 2025-11-17 02:20:59 发布

原创最新推荐文章于 2025-11-17 02:20:59 发布 · 3.3k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

目标识别专栏收录该内容

3 篇文章

订阅专栏

本文记录了在使用PyTorch进行图像算法训练时遭遇CPU资源不足导致的性能瓶颈。作者最初误以为是CUDA、cuDNN、磁盘读取速度、PyTorch版本、batch_size设置、num_work参数、分布式服务器配置或代码问题，最终发现是CPU核心数量不足所致。

部署运行你感兴趣的模型镜像

注：pytorch训练图像算法
因为没有申请多个CPU核心导致CPU加载数据等问题成为瓶颈！！！！！！
以此博客纪念逝去的两天光阴。
可以通过
top
watch -n 1 nvidia-smi等查看硬件信息
一开始发现并没有怎么利用CPU资源以为不是CPU的问题，其实不然。。。
一开始我以为是cuda没装好
我以为是cudnn没装好
我以为是磁盘文件加载慢
我以为是torch版本太低
我以为是batch_size设置太大
我以为是num_work设置太小
我以为是分布式服务器与单机不一样
我还以为是程序问题
no no no
就是因为CPU少了

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。