介绍

上图可以看出InstructGPT(PPO-ptx)及变体(variant trained without pretraining mix)(PPO)显著优于GPT,1.3B的InstructGPT优于175B的GPT,SFT作为RLHF第一阶段的模型效果比GPT好。当然结果是由人来评价的。
RLHF包含三个步骤:
- SFT: 对话数据微调基座语言模型,
- RM: 评分数据微调RM模型
- PPO: SFT模型生成答案,RM模型评分,PPO算法对SFT模型强化学习,进一步改进生成效果
下图就是3个阶段

蓝色箭头表示该数据用于训练我们的一个模型。在步骤2中,框A-D是由标签者排序的模型样本
InstructGPT训练了三种尺寸(1.3B, 6B, 175B)
InstructGPT生成的答案相比GPT3更加真实,同时在摘要和问答上也不会过度编造内容。
在公共数据集上微调的模型比InstructGPT表现差,公共数据集特定任务的原因。
InstructGPT泛化能力较好,即使在训练数据中分布较小的任务上也能获得好的测试效果。
InstructGPT还是存在编造事实,简单问题给出冗长模棱两可的回答,无法检测错误的前提。
本文的其余部分结构如下:我们首先在第2节详细介绍相关工作,然后在第3节深入介绍我们的方法和实验细节,包括我们的高级方法(3.1),任务和数据集细节(3.3和3.2),人类数据收集(3.4),我们如何训练我们的模型(3.5),以及我们的评估程序(3.6)。然后,我们在第4节中展示了我们的结果,分为三个部分:API提示分布的结果(4.1),公共NLP数据集的结果(4.2)和定性结果(4.3)。最后,我们在第5节中对我们的工作进行了扩展讨论,包括对齐研究的含义(5.1),我们对齐的内容(5.2),限制(5.3),开放问题(5.4)以及本工作的更广泛影响(5.5)。
相关工作
关于RLHF和语言对齐的工作从2016到2022就一直在NLP任务上使用,InstructGPT是在更广泛的NLP任务上使用RLHF。
使用instruction微调LM,有助于提高泛化能力。
实验细节
InstructGPT使用用户提出的prompt进行第一阶段的训练,第二阶段和第三阶段可以循环,即使用RM训练PPO,然后PPO后产生更好的RM数据,再训练。
第一个InstructGPT训练数据来自标注者的标注数据作为种子数据进行训练。主要三类数据:
- Plain: 我们简单地要求标注者提出一个任意的任务,同时确保任务具有足够的多样性
- Few-shot: 我们要求标注者提出一条指令,以及该指令的多个查询/响应对。
- User-based: 我们在OpenAI API的等待列表应用程序中列出了许多用例。我们要求标注者提出与这些用例相对应的提示 </

InstructGPT通过RLHF(强化学习从人类反馈)技术,在PPO和SFT等变体中表现出优于GPT-3的性能,尤其是1.3B参数的模型超过了175B参数的GPT-3。该方法包括对话数据微调、评分数据微调和强化学习改进。InstructGPT在遵循指令和避免过度创作方面更优,但仍有事实编造和冗长回答的问题。文章详细描述了训练方法、数据集和实验结果,讨论了模型对齐成本和未来挑战。
最低0.47元/天 解锁文章
1240

被折叠的 条评论
为什么被折叠?



