对齐LLM:理解RLHF中的奖励模型和PPO
大型语言模型(LLM)尽管功能强大,但往往产生与人类价值观或意图不完全对齐的输出。为了解决这个问题,采用了一种关键技术——人类反馈强化学习(RLHF)来微调其行为。
这种方法通过将人类的价值观和偏好直接整合到训练过程中,有效地将LLM的行为与人类期望对齐,从而构建更安全、更有用、更符合人类价值观的AI系统。
人类反馈强化学习代表了AI对齐领域的重要突破,它巧妙地结合了监督学习和强化学习的优势来优化模型表现。这种方法不仅关注模型是否产生正确的输出,更重要的是评估这些输出是否符合人类的价值观和偏好。通过收集人类对模型输出的偏好判断,RLHF构建了一个能够量化"质量"概念的框架,从而引导模型学习人类真正重视的行为模式。
本视觉指南揭秘了RLHF流程,将复杂的管道分解为可理解的阶段。我们将探索从最初的监督微调(SFT)到RLHF核心的整个过程:训练奖励模型来理解人类偏好,然后使用近端策略优化(PPO)优化LLM的策略。
通过清晰的图表和分步解释,本文为理解我们如何使AI模型更安全、更有用、更与我们对齐提供了坚实的基础。

1. RLHF简介
大型语言模型(LLM)虽然训练在海量数据集上并能够生成流畅的文本,但往往产生与人类期望不完全对齐的响应——它们可能反映偏见、包含事实错误或忽略微妙的用户偏好。
这是因为LLM训练的数据可能包含这些问题。尽管对训练数据集应用了大量的预处理和过滤,但最终控制数十亿个token并确保它们没有问题仍然是很困难的。
为了解决这个问题,AI研究社区开发了一系列后训练方法,这些方法在基础预训练之后实施,专门用于改善模型的行为表现。采用了诸如使用标注指令跟随数据的监督微调(SFT)和使用偏好比较(例如,更偏好与较不偏好的响应)的人类反馈强化学习(RLHF)等后训练方法,以更好地将模型行为与人类意图对齐。这些方法通常作为后训练步骤应用。图1可视化了这三个步骤。

图1. 从预训练到偏好对齐的LLM训练阶段
监督微调通过使用高质量的指令跟随数据来调整模型的行为。这种方法依赖于人工标注的高质量对话样本,让模型学习如何更好地理解和响应用户的指令。早期的工作主要集中在改进模型的指令跟随能力,通过精心设计的数据集来训练模型在特定任务上的表现。
早期的监督微调项目主要关注对话系统的开发。研究人员意识到,传统的聊天机器人往往产生不自然或不相关的响应。通过在精心设计的对话数据上微调模型,可以显著改善系统的自然性和相关性。
SFT的技术基础在于迁移学习理论。预训练的语言模型已经学习了语言的通用模式和知识,只需要针对特定任务进行微调就可以获得良好的性能。这种方法比从头开始训练要经济得多。
然而,早期的SFT方法也面临挑战。主要问题包括:1) 高质量标注数据的稀缺性;2) 标注成本的高昂;3) 标注一致性难以保证;4) 标注者主观性导致的偏差;5) 数据的时效性和更新需求。
为了解决这些问题,研究社区开发了多种改进的微调策略。少样本学习(Few-shot Learning)和零样本学习(Zero-shot Learning)方法通过巧妙的提示设计来减少对大量标注数据的需求。多任务学习(Multi-task Learning)方法通过在多个相关任务上同时训练来提高泛化能力。
虽然SFT能够显著改善模型的基本交互能力,但它仍然存在局限性。模型可能只是学会了模仿标注者的风格,而没有真正理解用户的深层意图。此外,不同的标注者可能有不同的写作风格和表达习惯,这可能导致模型输出的一致性问题。
SFT的另一个局限性是它主要关注表面的语言模式,而不是深层的语义理解和价值判断。模型可能学会产生符合标注风格的响应,但这些响应可能缺乏真正的有用性或准确性。
人类反馈强化学习代表了这一领域的重要突破。这种方法不仅关注模型是否产生正确的输出,更重要的是评估这些输出是否符合人类的价值观和偏好。RLHF通过收集人类对模型输出的偏好判断,构建了一个能够量化"质量"概念的框架,从而引导模型学习人类真正重视的行为模式。
RLHF的思想来源可以追溯到行为经济学和心理学中的偏好理论。心理学家长期研究人类如何做决策和表达偏好,而经济学家则发展了各种模型来解释和预测人类的选择行为。将这些理论应用到AI训练中,为解决语言模型的对齐问题提供了新的思路。
早期的RLHF研究主要集中在小规模的实验和理论分析。研究人员通过实验证明,即使使用相对简单的偏好比较方法,也能够显著改善模型的输出质量。这种发现激发了研究社区对人类反馈机制的深入探索。
RLHF的一个关键优势是它不依赖于绝对的质量评估,而是基于相对比较。这种方法避开了绝对评分标准的主观性和不一致性问题,同时能够捕捉到人类判断的微妙差异。
RLHF的另一个优势是它能够处理难以明确定义但容易比较的质量概念。例如,很难定义什么是"创造性",但人们可以轻松地比较两个创作作品的创造性程度。
这种方法的成功实践表明,结合监督学习和强化学习的优势,能够有效解决大型语言模型在初始训练中存在的各种问题,为构建更可靠的AI系统奠定了基础。这也为未来的AI发展指明了方向:单纯依靠数据和算法优化是不够的,必须将人类的判断和价值观直接融入到训练过程中。
在RLHF的发展过程中,研究社区也在不断探索新的算法和技术。直接偏好优化(DPO)、Constitutional AI、无监督强化学习等新方法都在为改善AI对齐提供新的技术路径。
现如今,RLHF作为一种领先的后训练策略,结合SFT与强化学习来基于人类反馈优化LLM。标准的LLM训练管道包含三个主要阶段,如图2所示:
-
- 步骤1:自监督预训练:在大量无标签文本数据上训练大型语言模型(LLM)以理解基本语言结构。
-
- 步骤2:监督微调(SFT):使用与目标任务特别相关的高质量数据对预训练语言模型进行微调,这一过程可以看作是一种指令调优形式。
-
- 步骤3:人类反馈强化学习(RLHF)
- • 步骤3.1:奖励模型训练— SFT模型为给定提示生成成对的答案。人类标注者表达对这些成对的偏好。然后训练奖励模型来预测这些偏好。
- • 步骤3.2:策略优化— 学习到的奖励函数提供反馈以进一步改进语言模型,通常利用强化学习中的近端策略优化(PPO)或直接偏好优化(DPO)。

图2. RLHF阶段的更深入了解,从使用偏好数据的奖励模型训练和PPO策略优化开始。
这种三阶段的训练管道代表了现代LLM开发的标准方法,通过将监督学习和强化学习的优势巧妙结合,显著改善了模型在各种应用场景中的表现。每个阶段都建立了前一阶段的基础上,形成了一个渐进式的能力提升过程。
在工业实践中,这个管道通常需要数月的时间和大量的计算资源才能完成。从数据收集到模型部署的整个过程需要项目管理、团队协作、技术创新和风险控制的综合能力。成功的RLHF项目不仅需要在技术层面的突破,还需要在人机协作、伦理考量和用户体验等方面的深入考虑。
工业级RLHF项目的实施需要考虑多个技术和管理层面。技术层面包括算法设计、计算资源管理、测试验证等。管理层面包括项目进度控制、成本管理、风险管理、团队协调等。
2. 奖励模型训练
奖励模型是一个单独训练的模型,用作人类判断的代理。其主要目的是评估给定"提示"上下文中的生成文本片段(“响应”)并输出单个数值分数或"奖励"。这个分数代表人类可能有多偏好该响应。
训练奖励模型的过程始于精心构建偏好数据集,它服务于将主观人类判断转换为机器可以学习的信号。
这不是通过要求人们对响应进行数值评分(例如,1-10)来实现的,因为这样的绝对分数在不同的,甚至是对同一个人随着时间推移,都往往不一致。相反,这个过程依赖于更强大和可扩展的方法:直接比较。
工作原理如下:
- • 首先,对于给定的输入提示,监督微调(SFT)模型生成两个或更多不同的响应

- • 然后,向人类标注者展示提示和这一对潜在答案。他们的任务是根据一套全面的指导原则评估两个响应——这通常包括有用性、安全性、语调和事实准确性等标准——并选择他们偏好的一个。这个单一选择"响应A比响应B更好"是一个强大而可靠的数据点。这个整个过程在数千甚至数万个不同的提示上重复,以构建一个鲁棒的数据集,捕获广泛的人类偏好。

偏好数据集的格式如下所示:

在RLHF中,偏好数据集用于训练奖励模型来为潜在答案评分,本质上是学习预测人类偏好。这种方法使模型能够整合人类对不同问题类型和领域答案质量的判断。

奖励模型r_φ的训练通常采用Bradley-Terry模型将未观察到的隐式分数与偏好联系起来:

其中σ()是sigmoid函数。基于这个表达式,我们可以定义训练奖励模型的损失函数L_R(r_φ, D)。负号是因为我们想要最小化损失。

使用这个损失函数,我们可以通过以下目标用偏好数据集训练奖励模型:

现在我们有了一个奖励模型r_φ,代表了人类(据称)认为的好的程度。因此我们学习一个策略π_θ来实现高奖励,同时保持接近原始模型π_ref。最后,RLHF目标可以被表述为一个约束优化问题:

这个公式旨在最大化预期奖励,同时保持优化后的策略π_θ接近参考策略π_ref,从而防止奖励黑客攻击。这体现了RLHF的核心思想:既要让模型学习产生高质量的响应,又要保持与原始模型在分布上的相对接近性。这种平衡确保了模型在获得更好对齐能力的同时,不会失去其基本语言生成能力。
在实际实现中,需要仔细调整β参数的值。如果β太小,模型可能会过度优化奖励函数,导致不期望的行为;如果β太大,模型可能无法充分学习人类偏好。参数β的调优是实际应用中的重要挑战。过小的β可能导致策略变化过大,损害模型的基本能力。过大的β可能限制学习能力,无法显著改善对齐。经验上,β的取值范围通常在0.1到10之间,但具体的最佳值需要通过实验确定。不同任务和不同模型可能需要不同的β值。动态调整β的策略在某些情况下可能更有效。初期训练使用较小的β以允许快速学习,后期增加β以稳定模型行为。
KL散度的计算方法也影响优化过程。不同的KL散度测量方法可能导致不同的优化路径,但它们都旨在限制策略的更新幅度,确保学习过程的稳定性。
这是使用奖励模型对LLM进行偏好微调的总结。

尽管有效,RLHF仍面临几个挑战:
-
- 计算复杂性:优化过程在计算上很密集。计算复杂性是RLHF面临的主要挑战之一。这种复杂性源于需要同时维护和训练多个模型——奖励模型、策略模型和参考模型。这种多模型架构不仅增加了内存需求,还显著延长了训练时间。对于大规模的LLM,这种复杂性可能导致训练成本超出实际应用的可接受范围。
-
- 不可微性:输出序列的采样是不可微的,需要使用强化学习算法如近端策略优化(PPO)。序列采样的离散性质使得RLHF的优化过程与传统的监督学习有根本不同。标准的反向传播算法无法直接应用于序列生成过程,因为每个token的生成都涉及离散的选择。这种不可微性迫使我们使用专门的强化学习算法,如近端策略优化(PPO)或DPO,这些算法需要复杂的实现和精细的调参。
-
- 不稳定性:强化学习(RL)算法可能不稳定且对超参数敏感。强化学习算法通常对超参数选择极其敏感,小的参数变化可能导致完全不同的训练结果。这种不稳定性在RLHF中尤为明显,因为奖励模型本身也可能存在估计误差,这些误差在强化学习过程中会被放大。此外,训练过程的探索-利用平衡、奖励函数的尺度、以及策略更新的步长都需要仔细控制。
3. 结论与展望
人类反馈强化学习代表了AI对齐领域的重要里程碑,它为构建更安全、更有用、更符合人类价值观的AI系统提供了可行的技术路径。通过将人类智慧直接整合到机器学习过程中,RLHF为解决AI系统的对齐问题开辟了新路径。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

1716

被折叠的 条评论
为什么被折叠?



