12、生成式模型的微调、评估与部署优化

c6d7e8f9g

于 2025-10-28 10:35:42 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：驾驭生成式AI的未来文章标签： RLHF 生成式模型微调

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/154515066

驾驭生成式AI的未来专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

生成式模型的微调、评估与部署优化

1. 基于人类反馈的强化学习（RLHF）流程

1.1 RLHF 迭代更新

在 RLHF 过程中，每次迭代都会更新模型权重，类似于其他类型的模型训练和微调，迭代会持续进行一定的步数和轮次。随着时间推移，生成式模型产生的有毒完成结果会减少，从而获得更高的奖励。迭代会一直持续，直到模型根据评估阈值（如毒性分数）达到对齐要求，或者达到最大配置迭代次数 max_ppo_steps 。

1.2 代码实现

# Extract prompts from the input batch
prompt_tensors = batch["input_ids"]
# Prepare list to collect the summaries
summary_tensors = []
# For each input prompt, generate a summary completion
for prompt_tensor in prompt_tensors:
    summary = ppo_trainer.generate(prompt_tensor, 
      **generation_kwargs)

    # Append the summaries
    summary_tensors.append(
      summary.squeeze()[-max_new_tokens:])

# This needs to be called "response".
batch["response"] = [tokenizer.de