深度学习
文章平均质量分 70
lybugproducer
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习专题:模型训练的张量并行(一)
本文介绍了深度学习中的张量并行技术,重点分析了两种切分方式:行并行和列并行。行并行将权重矩阵按行拆分到不同设备,输入矩阵随之按列拆分,通过all-reduce聚合结果;列并行则将权重矩阵按列拆分,输入保持不变,通过all-gather聚合输出。两种方法都能有效减少单个设备的显存占用,并利用多设备并行计算加速模型训练。原创 2025-12-17 14:49:38 · 153 阅读 · 0 评论 -
深度学习专题:模型训练的数据并行(三)
本文介绍了深度学习模型训练中的数据并行优化技术ZeRO系列。原创 2025-11-04 16:11:26 · 605 阅读 · 0 评论 -
深度学习专题:模型训练的数据并行(二)
本文详细介绍了深度学习分布式训练中的Ring All-Reduce梯度同步算法。该算法采用环形通信结构,分为Scatter-Reduce和All-Gather两个阶段:首先将梯度分块进行累加计算(各GPU负责不同参数块),然后广播完整的累加结果。通过四块GPU和9个参数的实例演示,文章展示了完整的通信流程,包括4次通信完成梯度聚合和广播。Ring All-Reduce的优势在于通信量不随设备数增加而显著增长(N个设备只需2×(N-1)次通信),特别适合大规模参数同步场景。原创 2025-10-31 16:02:35 · 455 阅读 · 0 评论 -
深度学习专题:模型训练的数据并行
本文介绍了深度学习中的关键并行技术,重点探讨了数据并行方法。数据并行通过将模型复制到多个GPU上并拆分训练数据,实现了加速训练过程。文章详细阐述了数据并行的工作流程,包括模型分发、数据拆分、并行计算和梯度同步等步骤。通过单层全连接网络的算例验证,证明了数据并行的数学正确性:将4个样本平分给2个GPU后,梯度同步结果(7.5)与单卡完整批量计算完全一致。数据并行有效解决了大规模模型训练时单GPU计算能力不足的问题。原创 2025-07-31 10:06:34 · 1220 阅读 · 0 评论
分享