12、生成式模型的微调、评估与部署优化

生成式模型的微调、评估与部署优化

1. 基于人类反馈的强化学习(RLHF)流程

1.1 RLHF 迭代更新

在 RLHF 过程中,每次迭代都会更新模型权重,类似于其他类型的模型训练和微调,迭代会持续进行一定的步数和轮次。随着时间推移,生成式模型产生的有毒完成结果会减少,从而获得更高的奖励。迭代会一直持续,直到模型根据评估阈值(如毒性分数)达到对齐要求,或者达到最大配置迭代次数 max_ppo_steps

1.2 代码实现

# Extract prompts from the input batch
prompt_tensors = batch["input_ids"]
# Prepare list to collect the summaries
summary_tensors = []
# For each input prompt, generate a summary completion
for prompt_tensor in prompt_tensors:
    summary = ppo_trainer.generate(prompt_tensor, 
      **generation_kwargs)

    # Append the summaries
    summary_tensors.append(
      summary.squeeze()[-max_new_tokens:])

# This needs to be called "response".
batch["response"] = [tokenizer.de
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值