生成式模型的微调、评估与部署优化
在生成式模型的应用中,为了让模型更符合人类的价值观和偏好,同时优化其部署性能,需要进行一系列的操作,包括使用基于人类反馈的强化学习(RLHF)进行微调、对微调后的模型进行评估,以及对模型进行部署优化。
1. RLHF 微调过程
RLHF 微调过程主要包括以下步骤:
# Extract prompts from the input batch
prompt_tensors = batch["input_ids"]
# Prepare list to collect the summaries
summary_tensors = []
# For each input prompt, generate a summary completion
for prompt_tensor in prompt_tensors:
summary = ppo_trainer.generate(prompt_tensor,
**generation_kwargs)
# Append the summaries
summary_tensors.append(
summary.squeeze()[-max_new_tokens:])
# This needs to be called "response".
batch["response"] = [tokenizer.decode(r.squeeze()) for r in summary_tensors]
# Compute reward outputs for combined query and re
超级会员免费看
订阅专栏 解锁全文
28万+

被折叠的 条评论
为什么被折叠?



