-
常用并行方案:
数据并行;
模型并行;
通道并行(数据+模型并行);
-
数据并行:将小批量分成 n n n块,每个GPU拿到完整参数计算一块数据的梯度;通常性能更好。
-
模型并行:将模型分成 n n n块,每个GPU拿到一块模型计算它的前向和反向结果;通常用于模型大到单GPU放不下。
-
当一个模型能用单卡计算时,通常使用数据并行拓展到多卡上;模型并行则用在超大模型上。
33 单机多卡并行 [动手学深度学习v2]
最新推荐文章于 2024-09-26 09:00:00 发布
常用并行方案:
数据并行;
模型并行;
通道并行(数据+模型并行);
数据并行:将小批量分成 n n n块,每个GPU拿到完整参数计算一块数据的梯度;通常性能更好。
模型并行:将模型分成 n n n块,每个GPU拿到一块模型计算它的前向和反向结果;通常用于模型大到单GPU放不下。
当一个模型能用单卡计算时,通常使用数据并行拓展到多卡上;模型并行则用在超大模型上。