折月煮酒c-优快云博客

原创 Pytorch DDP 加速 resnet50 训练

NCCL提供了诸如全收集（all-gather）、全归约（all-reduce）、广播（broadcast）、归约（reduce）、归约散射（reduce-scatter）以及点对点发送和接收等例程。sys 0m49.173s #程序在内核态（系统调用，如文件读写、GPU驱动调用等）消耗的CPU时间。（2）GPU空载：加载训练数据（可使用更高速的存储介质或者数据预取）（3）GPU1满载：测试/加载训练数据（可优化为2个GPU一起测试）3.使用多机多卡（GPU）加速resnet50 训练（待完成）

2025-08-09 21:45:08 837

原创 CCF CSP 认证题解合集2023.12-？（持续更新）

CCF CSP 认证个人题解

2024-09-15 22:00:18 1123

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人