大语言模型调优SFT & RLHF

最新推荐文章于 2025-10-20 11:41:28 发布

原创

最新推荐文章于 2025-10-20 11:41:28 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

模型调优

大语言模型调优是通过准备训练数据，并在已有的预训练模型上进行调优，包括 llama、千问等模型，从而可以让模型学习到私有知识或者增强模型的已有知识。因此，如果要想训练一个效果好的模型，我们就需要提供大量的训练数据，数据格式包括问题和答案，例如下面这个例子，这种方式叫做 SFT（Supervised Fine Tuning）：

{
    "instruction": "列举消费者决策过程的五个阶段。",
    "input": "",
    "output": "消费者决策过程的五个阶段包括问题识别阶段、信息搜索阶段、替代方案评估阶段、购买决策阶段和购后评估阶段。在问题识别阶段，消费者会感知到需求并开始搜索信息。在信息搜索阶段，消费者会寻找更多信息来帮助他们选择产品。在替代方案评估阶段，消费者会评估可用选择并权衡各种选项。在购买决策阶段，消费者会做出购买决策。最后，在购后评估阶段，消费者会评估自己的购买，并决定是否满意自己的决策，或者是否需要再次购买。"
  },
  {
    "instruction": "改写给定句子，使用适当的隐喻使其具有与原句相同的意义。",
    "input": "跳入游泳池就像是跳入冰水中一样。",
    "output": "跳入游泳池就像跳入冰浴中一样。"
  },

上面这两条是取自alpaca_data_zh_51k中文数据集。SFT 并不能保证模型的回答和用户想要一致，RLHF（reinforcement learning from human feedback），这种方式是通过用户反馈对模型的参数进行调优，本文将介绍RLHF 中的 DPO 和 PPO 两种方式是如何进行调优的。