
分布式计算
文章平均质量分 96
张小殊.
主要发文方向为深度学习、并行编程、大规模并行训练、模型推理优化,欢迎大家一起互相学习、交流,谢谢!
展开
-
分布式深度学习中的数据并行和模型并行
对于深度学习模型的预训练阶段,海量的训练数据、超大规模的模型给深度学习带来了日益严峻的挑战,因此,经常需要使用多加速卡和多节点来并行化训练深度神经网络。目前,数据并行和模型并行作为两种在深度神经网络中常用的并行方式,分别针对不同的适用场景,有时也可将两种并行混合使用。本文对数据并行和模型并行两种在深度神经网络中常用的并行方式原理及其通信容量的计算方法进行介绍。原创 2024-01-23 09:23:35 · 6135 阅读 · 28 评论 -
分布式训练通信NCCL之Ring-Allreduce详解
随着Chat GPT、文生图、多模态等模型的发展,海量的训练数据、超大规模的模型给深度学习带来了日益严峻的挑战,因此,经常需要使用多加速卡和多节点来并行化训练深度神经网络。目前,数据并行和模型并行作为两种在深度神经网络中常用的并行方式,分别针对不同的适用场景,有时也可将两种并行混合使用。数据并行是在不同设备上放置完整的模型,然后将数据划分在每个设备并行计算。原创 2023-12-26 10:25:38 · 12657 阅读 · 3 评论