自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Remixa的博客

原创 InstructGPT高效实践——【DeepSpeed-Chat】源码详解(3/3)：RLHF Finetuning

前言本篇为上中下三篇章的【下篇】，接续自【中篇】。主要针对整个DeepSpeed-Chat框架中最为复杂的第三阶段进行详解，其中涉及到部分InstructGPT所述相关原理的实践，基于其代码将更易于理解诸多原理中一笔带过的话题，如“用于经验采集的策略网络到底是SFT还是Actor”“Critic的迭代又是如何实现的”等等。尽管这是讨论DeepSpeed-Chat技术为主的文章，但还是不得不借用ColossalChat（另一个实现了RLHF Pipeline的开源项目，项目地址）绘制的流程示意图（

2023-05-17 17:46:40 4409 25

原创 InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3)：Supervised Finetuning、Reward Model Finetuning

本篇为上中下三篇章的【中篇】，接续自【上篇】。主要针对三阶段训练中第一阶段、第二阶段较为重要的部分源码进行详解。尽管官方的上手文档均是以sh文件为例进行演示，且源码中确实也提供了便捷的sh文件供直接使用，但我仍建议通过各阶段的main.py文件（）来运行训练，大致原因有二：其一是因为官方预设的sh文件调用了。

2023-05-17 17:45:38 4019 8

原创 InstructGPT高效实践——【DeepSpeed-Chat】源码详解(1/3)：基本概念、数据集管理

早些时候微软发布了遵从InstructGPT训练逻辑的训练框架DeepSpeed-Chat，旨在通过良好的DeepSpeed生态降低类ChatGPT模型昂贵的训练成本，为了能更直接地理解有关技术原理，我对其中实现训练相关的代码进行了详细剖析，考虑到目前还没有太多相关文章对此进行过深入介绍，因此我将在本博客中探讨这个框架的实现细节，以帮助有需要的人能更好地理解和使用它。另外，我也非常欢迎大家在评论区分享出自己对这个框架的看法以及使用经验，或是提出对本文的建议。框架源码地址。

2023-05-17 17:42:55 4459 10

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Remixa 优快云认证博客专家优快云认证企业博客

码龄6年

IP 属地：湖南省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

3: 原创

132万+: 周排名

232万+: 总排名

1万+: 访问

: 等级

112: 积分

519: 粉丝

52: 获赞

42: 评论

100: 收藏

私信

关注

热门文章

分类专栏

DeepSpeed-Chat详解 3篇

最新评论

InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3)：Supervised Finetuning、Reward Model Finetuning
wlsyhlb: 想钱想疯了吧只能看部分内容，剩下的还要钱
InstructGPT高效实践——【DeepSpeed-Chat】源码详解(1/3)：基本概念、数据集管理
MikiyaGuan: 感谢分享，很清晰。尤其是配合时序图和具体的例子。这里我想问下：博客中的时序图是怎么画出来的呀？
InstructGPT高效实践——【DeepSpeed-Chat】源码详解(3/3)：RLHF Finetuning
企鹅的外层世界: 楼主有心了，很好的整理，然我对llm的训练有了基本的概念。
InstructGPT高效实践——【DeepSpeed-Chat】源码详解(1/3)：基本概念、数据集管理
hotkitchen: 博客写得不错，可以考虑坚持继续写下去~
InstructGPT高效实践——【DeepSpeed-Chat】源码详解(3/3)：RLHF Finetuning
dofy_: 讲解得非常细致的文章！对我学习rlhf很有帮助！感谢作者！但同时我仍有一点疑惑，对于3.3.5.2小节中代码第190行的critic_loss_fn中，为了使values不太偏离经验采样的旧values，会对values进行clamp约束，防止其过高或者过低，这里我是可以理解的。接着这里计算了两个loss，一个是原values和return的差的平方loss1，另一个是裁剪约束的values和return的差的平方loss2。但是，在总损失计算的时候，使用了max(loss1, loss2)。此处我便产生了疑惑：若是存在所说的过度偏离的values时，loss1将会是很大，而裁剪values的loss会很小，但最终由于max的存在，还是选择了更大的loss1。这里似乎没有看到裁剪后的values得到loss2的作用。这让我很是困惑，希望得到作者的解答

最新文章

提示

确定要删除当前文章？

取消删除