大模型(LLMs)强化学习篇
简单介绍强化学习?
强化学习(Reinforcement Learning)是一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一种自适应的学习能力。
简单介绍一下 RLHF?
基于人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF):构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。
奖励模型需要和基础模型一致吗?
不同实现方式似乎限制不同。(待实践确认)colossal-ai的coati中需要模型有相同的tokenizer,所以选模型只能从同系列中找。在ppo算法实现方式上据说trlx是最符合论文的。
RLHF 在实践过程中存在哪些不足?
- 不足点1:人工产生的偏好数据集成本较高,很难量产;
- 不足点2:三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢;
- 不足点3:PPO的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高。
如何解决人工产生的偏好数据集成本较高,很难量产问题?
- 解决方法:AI专家替代派