- 博客(2)
- 收藏
- 关注
原创 Pytorch DDP 加速 resnet50 训练
NCCL提供了诸如全收集(all-gather)、全归约(all-reduce)、广播(broadcast)、归约(reduce)、归约散射(reduce-scatter)以及点对点发送和接收等例程。sys 0m49.173s #程序在内核态(系统调用,如文件读写、GPU驱动调用等)消耗的CPU时间。(2)GPU空载:加载训练数据(可使用更高速的存储介质或者数据预取)(3)GPU1满载:测试/加载训练数据(可优化为2个GPU一起测试)3.使用多机多卡(GPU)加速resnet50 训练(待完成)
2025-08-09 21:45:08
837
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅