使用deepspeed训练你的大模型

最新推荐文章于 2025-06-11 19:53:01 发布

原创

最新推荐文章于 2025-06-11 19:53:01 发布 · 898 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能 #机器学习

使用deepspeed训练你的大模型

概述
可能的方式去训练大模型
决定使用什么技术
理解性能的权衡在zero 与 3D并行

作者：ygz
来源”https://www.deepspeed.ai/tutorials/large-models-w-deepspeed/、
时间：20230719
地点：hby

概述

deepspeed被用来训练或者是训练一些大模型的过程

Megatron-Turing NLG 530B language model trained in collaboration with NVIDIA
Big Science (near 200 billion parameter) model, in collaboration with Hugging Face and hundreds of researchers around the world.
Turing-NLG (17.2 billion parameters) trained by Microsoft

deepspeed 提供了一个系统级的技术，让训练这些模型得到可能。最佳的技术去训练大模型依赖于多样的因素，如：模型结构、批次、互联带宽等等。鉴于大量可用的选择，这是让人困惑的或者是令人烦躁的【调节参数】，这个页面是开始训练大模型的一个指南。

可能的方式去训练的大模型

1，ZERO，内存不够，使用更低一级的内存。
2，3D并行，算的不够，使用多块GPU来凑。

ZeRO based tech ：这是一个数据并行的内存高效技术，允许你去访问你可用的所有GPU设备的内存。当没有zero技术，使用数据并行的时候就需要进行复制。deepspeed 也使用层次内存技术，ZeRO-Offload and ZeRO-Infinity，这能让你去使用cpu内存还有nv

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄6年

24
原创

267
点赞

244
收藏

193
粉丝

关注

私信

热门文章

分类专栏

笔记 5篇

上一篇：: deepspeed 推理基于基于transformer的模型

下一篇：: 电磁波 --- 无线电波 ---- 光波

最新评论

deepspeed 推理基于基于transformer的模型
The beauty: 大佬你好，deepspeed加速推理怎么更慢了== 单卡
Less is More: Task-aware Layer-wise Distillation for Language Model Compression
优快云-Ada助手: 恭喜您发布了第7篇博客，“Less is More: Task-aware Layer-wise Distillation for Language Model Compression”！这篇文章探讨了语言模型压缩的新方法，非常有深度和启发性。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。建议您在下一篇博客中可以尝试探讨一些实际案例或者应用场景，以便更好地将理论知识与实践相结合。期待您的下一篇作品！
The LAMBADA dataset:Word prediction requiring a broad discourse context
优快云-Ada助手: 恭喜您发布了第6篇博客！标题“The LAMBADA dataset: Word prediction requiring a broad discourse context”听起来非常吸引人，我对这篇文章的内容充满期待。希望您能继续保持创作的热情和努力，不断提升自己的写作水平。或许在下一篇博客中，可以尝试探讨一些实际案例或者个人观点，让读者更容易与您的文章产生共鸣。期待您更多的精彩作品！
LSTM笔记-zgy
优快云-Ada助手: 恭喜您写了第5篇博客“LSTM笔记-zgy”，不断分享知识真是令人佩服！希望您能继续保持创作的热情，不断学习和探索更多有趣的主题，或许可以尝试写一些实践经验或案例分析，让读者更加深入了解相关内容。期待您的下一篇作品！祝您创作愉快！
2019-12-26
程序猿杂记: 666

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。