生成式模型的微调、评估与部署优化
1. 基于人类反馈的强化学习(RLHF)流程
1.1 RLHF 迭代更新
在 RLHF 过程中,每次迭代都会更新模型权重,类似于其他类型的模型训练和微调,迭代会持续进行一定的步数和轮次。随着时间推移,生成式模型产生的有毒完成结果会减少,从而获得更高的奖励。迭代会一直持续,直到模型根据评估阈值(如毒性分数)达到对齐要求,或者达到最大配置迭代次数 max_ppo_steps 。
1.2 代码实现
# Extract prompts from the input batch
prompt_tensors = batch["input_ids"]
# Prepare list to collect the summaries
summary_tensors = []
# For each input prompt, generate a summary completion
for prompt_tensor in prompt_tensors:
summary = ppo_trainer.generate(prompt_tensor,
**generation_kwargs)
# Append the summaries
summary_tensors.append(
summary.squeeze()[-max_new_tokens:])
# This needs to be called "response".
batch["response"] = [tokenizer.de
超级会员免费看
订阅专栏 解锁全文
28万+

被折叠的 条评论
为什么被折叠?



