使用deepspeed训练你的大模型

使用deepspeed训练你的大模型

  1. 概述
  2. 可能的方式去训练大模型
  3. 决定使用什么技术
  4. 理解性能的权衡在zero 与 3D并行

作者:ygz
来源”https://www.deepspeed.ai/tutorials/large-models-w-deepspeed/、
时间:20230719
地点:hby

概述

deepspeed被用来训练或者是训练一些大模型的过程

Megatron-Turing NLG 530B language model trained in collaboration with NVIDIA
Big Science (near 200 billion parameter) model, in collaboration with Hugging Face and hundreds of researchers around the world.
Turing-NLG (17.2 billion parameters) trained by Microsoft

deepspeed 提供了一个系统级的技术,让训练这些模型得到可能。最佳的技术去训练大模型依赖于多样的因素,如:模型结构、批次、互联带宽等等。鉴于大量可用的选择,这是让人困惑的或者是令人烦躁的【调节参数】,这个页面是开始训练大模型的一个指南。

可能的方式去训练的大模型

1,ZERO,内存不够,使用更低一级的内存。
2,3D并行,算的不够,使用多块GPU来凑。

ZeRO based tech :这是一个数据并行的内存高效技术,允许你去访问你可用的所有GPU设备的内存。当没有zero技术,使用数据并行的时候就需要进行复制。deepspeed 也使用层次内存技术,ZeRO-Offload and ZeRO-Infinity,这能让你去使用cpu内存还有nv

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值