Anthropic: 预训练阶段引入人类反馈更安全

预训练引入人类反馈提升语言模型对齐效果

最新推荐文章于 2025-11-27 14:26:48 发布

原创最新推荐文章于 2025-11-27 14:26:48 发布 · 759 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #AI大模型 #LLM #ai #大模型

在这里插入图片描述

该研究探讨了在语言模型（LM）预训练阶段引入人类偏好反馈，以减少模型生成不符合人类偏好的内容，如虚假信息、冒犯性评论、个人身份信息等。这项工作认为，与仅在微调阶段对模型进行对齐不同，在预训练时纳入人类偏好可以更有效地促使模型生成符合人类期望的内容。文章提出，当前主流的微调方法（如监督学习和RLHF）在大模型上往往难以有效“遗忘”不符合人类偏好的训练数据。该研究的动机是通过直接在预训练阶段嵌入人类偏好来提升模型的对齐效果。

一、主要贡献

在这里插入图片描述

在毒性分数（越低越好）方面，采用标准预训练目标（蓝色实线）和条件训练目标（橙色实线）进行预训练的语言模型表现有显著差异。条件训练能够显著降低模型生成冒犯性内容的频率。此外，与在1.6B（橙色虚线）和330M（橙色点线）tokens上通过条件训练进行微调的模型相比，直接采用人类反馈预训练（PHF）在减少不良内容方面更为有效。这表明，相较于后续微调阶段，PHF在预训练阶段就能够更有效地抑制不符合人类偏好的内容。

1.提出预训练目标选择：文章探索了五种基于人类反馈的预训练目标，以分析它们对模型对齐和性能的影响。研究发现，条件训练（Conditional Training）在减少不良内容生成和保持模型任务能力之间达到了帕累托最优。

2.条件训练方法验证：实验表明，条件训练在无提示和对抗性提示下均能显著降低模型生成不良内容的频率。与标准LM预训练相比，条件训练在无损害性能的前提下显著提升了模型的对齐效果。

3.PHF对比传统微调方法：研究发现，PHF在多个任务中显著优于标准的MLE预训练后再微调的流程。这表明，在预训练阶段就引入人类偏好更为高效，改变了仅在微调阶段进行对齐的传统做法。

4.实验数据支持：研究在非毒性文本生成、去除个人身份信息（PII）、以及生成符合PEP8标准的Python代码三项任务上对比了不同预训练方法的对齐效果，验证了条件训练的普适性。

二、方法

在这里插入图片描述

三、MLE（最大似然估计）

在这里插入图片描述

四、MLE带过滤

在这里插入图片描述

五、条件训练（Conditional Training）

在这里插入图片描述

六、非期望目标（Unlikelihood Loss）

在这里插入图片描述

七、奖励加权回归（Reward-Weighted Regression, RWR）

在这里插入图片描述

八、优势加权回归（Advantage-Weighted Regression, AWR）

在这里插入图片描述

九、实验设置

本文的实验设置包含预训练和微调，用于比较MLE和多种基于人类反馈的目标（PHF）在模型能力和对齐指标上的表现。

十、任务

研究中选取了三个任务以评估PHF目标的效果：

1.避免有害内容：通过使用Detoxify模型检测毒性，将毒性概率的负值作为奖励函数R，以毒性概率作为偏差分数。在训练时，对文档进行句子级别的打分。

2.避免泄露个人可识别信息（PII）：利用Scrubadub检测PII信息（如电子邮件、社保号等），奖励函数R为每字符检测到的PII实例数的负值，同样在句子级别进行评分。

3.生成符合PEP8规范的Python代码：通过检测代码中的PEP8规范违规情况，用pycodestyle作为检测工具，奖励函数R为每字符PEP8违规数的负值。在训练文档的行级别分配奖励。

十一、模型架构与超参数

实验中的语言模型使用GPT-2-small架构（124M参数）。除学习率和批量大小外，模型保持GPT-2-small的原始超参数配置。对于特定目标的超参数（如t, α或β），则单独调整学习率和批量大小，并选择在偏差分数和与GPT-3的KL散度表现最佳的配置。

十二、训练数据

训练数据总量固定为3.32B tokens，以确保与模型规模的计算需求一致。对于toxicity和PII任务，从The Pile数据集中随机抽取1.95M文档，总计3.32B tokens。对于代码生成，从GitHub数据集的清洗版本中抽取1.5M Python文件，总量同样为3.32B tokens。

十三、预训练实验

本文通过实验评估PHF（带有人类反馈的预训练目标）对模型对齐能力和表现能力的影响。主要采用两项指标：偏差分数和与GPT-3的KL散度。偏差分数衡量模型生成的文本在多大程度上符合人类偏好，而KL散度则评估模型输出分布与高能力模型（如GPT-3）之间的相似度。

十四、结果与分析

实验结果显示，所有PHF目标都显著减少了不符合人类偏好的内容，部分方法甚至将其降低了一个数量级。例如，在毒性任务中，MLE训练的平均偏差分数为0.0141，而条件训练的偏差分数降至0.0011。这种大幅度的下降在偏差分数分布的右尾（极端情况下）也有类似表现，条件训练将右尾显著左移。更重要的是，条件训练和数据过滤在训练过程中，偏差分数持续下降，未见显著的停滞迹象，这表明随着训练集增大，模型的对齐效果可能进一步提升。

在不同的PHF目标中，条件训练在对齐能力和KL散度之间实现了最佳平衡。在毒性任务中，它位于帕累托最优前沿，并在PII和PEP8任务上也表现优异，成为所有任务中唯一始终位于帕累托前沿的PHF方法。在对齐得分上，数据过滤在PEP8任务上稍微优于条件训练，但在其他两个任务中，由于大幅度的能力损失，过滤方法并非最佳。相比之下，RWR和AWR的表现相对较差，仅稍微改善了MLE的偏差分数，且导致了显著的能力损失。不太可能训练（Unlikelihood Training） 的效果则因任务而异，对毒性任务的偏差分数有明显改善，但在PII和PEP8任务中效果有限。

总体而言，条件训练在三项任务中均实现了出色的对齐表现和相对较小的能力损失，表明其在模型对齐和保持能力之间实现了较优的平衡。

十五、对抗性测试的鲁棒性

在对无条件生成进行对齐评估的基础上，本文还考察了模型在对抗性提示下的表现，即通过“红队测试”检验模型的鲁棒性。红队测试是指通过模拟的对抗者，试图诱导模型生成不符合对齐标准的内容（例如攻击性回复、泄露PII或违反PEP8规范的代码）。本文通过使用InstructGPT模拟对抗者，以少量示例引导其生成对齐失败的内容，并通过以下迭代步骤逐步增强对抗性提示：

1.为每个对抗性提示分配评分，反映其引发不良输出的倾向性。
2.根据评分抽样一组对抗性提示，并用作生成不良内容的示例。
3.使用InstructGPT生成一组新的对抗性提示，并将其添加到提示池中。

此过程重复10轮，对每个模型和任务分别进行10次独立试验，记录平均偏差分数和标准差。

十六、实验结果

结果显示，整体趋势与之前的无条件生成评估一致：条件训练和数据过滤在鲁棒性上表现最优，在毒性和PII任务中，即使经过10轮红队测试，条件训练的偏差分数也比MLE低一个数量级。此外，不太可能训练（Unlikelihood）在毒性任务上表现出特别强的鲁棒性，而在PII任务上的表现最差。

虽然带有反馈的预训练模型相比MLE模型在对抗性测试中表现出显著的鲁棒性，但所有PHF目标仍存在被对抗性提示利用的风险。随着对抗性提示轮次的增加，目标模型的平均偏差分数持续上升，且在10轮测试后未见明显的稳定趋势。这表明，即使经过条件训练和其他PHF方法，模型在某些部署情境中仍可能存在对齐漏洞。

综上，条件训练和数据过滤能够显著提升模型在对抗性测试中的鲁棒性，但PHF方法无法完全消除模型在强对抗环境下的不对齐行为。

十七、下游基准测试

在零样本基准测试中，本文通过未额外训练或示例的任务评估模型能力。对于毒性和PII任务，使用了LAMBADA任务（预测段落的最后一个词）来测试模型的准确率和困惑度；对于PEP8任务，采用HumanEval进行代码生成任务的正确率评估。结果显示，条件训练在准确率上略优于MLE，而其他PHF目标在准确率上有所下降，尤其是在毒性任务中。

在GLUE测试中，研究了PHF训练对语言理解任务的表现，通过对训练好的LM在不同GLUE任务上进行微调，评估其表征学习的效果。结果表明，条件训练在GLUE分数上最接近MLE，次佳方案因任务而异，例如毒性任务上的数据过滤或PII任务上的不可能训练。

在HumanEval代码生成评估中，MLE与PHF方法的能力差距更为显著。该差距仅在pass@100上被数据过滤方案缩小，而条件训练在此基准下表现不再是最优，被数据过滤、AWR和RWR方法匹配或超越。不可能训练在此基准下持续获得最低分数。

总体而言，条件训练在多数基准测试中表现优异，尤其是在GLUE和LAMBADA等自然语言理解任务上，表明其在平衡对齐和能力方面的优势。

十八、使用人类反馈的微调

设置标准的对齐方法通常包括首先用最大似然估计（MLE）预训练语言模型（LM），然后使用涉及人类反馈的目标（如带有KL惩罚的强化学习或监督微调）来微调模型。在此部分，对比了PHF（预训练阶段应用人类反馈的模型）与传统的微调方法，特别关注条件训练效果。

在实验中，研究人员使用了1.6B或3.3B的训练数据对模型进行PHF预训练，并分别将这些预训练的模型微调至1.6B或300M的额外数据。每个任务和微调目标都进行了学习率和批量大小的超参数搜索，以确保实验的一致性。

结果 PHF相比于传统的微调方法始终具有明显的优势。在毒性和PII任务中，PHF预训练显著降低了模型的错误对齐分数。例如，在PII任务中，PHF预训练的错误对齐分数比仅使用300M数据进行微调的模型低两到三倍，条件预训练的最终错误对齐分数达到0.0013，而微调模型则为0.0018或更高。PHF在小数据量微调时的效果也更为显著，这表明PHF在较少的训练预算下仍能实现较高的对齐效果。

此外，研究人员通过重复红队测试验证了PHF预训练模型在面对对抗性提示时的鲁棒性。图7表明，PHF预训练的LM比传统微调的LM更具对抗性鲁棒性。尤其是在PII任务中，PHF训练的模型在经历10轮红队测试后才能达到微调模型经过一轮测试后的错误对齐分数，这进一步证实了PHF在提升模型对抗鲁棒性方面的有效性。

总体而言，实验结果表明，模型对齐效果与训练过程中所接收的人类反馈量密切相关。相比于仅在训练的后期加入反馈，PHF在整个预训练过程中始终引入人类反馈，从而大大改善了模型的对齐表现。

十九、结论

本文对仅在微调阶段进行语言模型（LM）对齐的传统做法提出了质疑，并主张在预训练阶段就加入人类反馈。在所评估的五种PHF目标中，条件训练在能力和对齐效果上始终表现优异，除了两个例外情况：在毒性任务的红队测试中，不可能性训练的鲁棒性更强；在HumanEval任务上，过滤方法的效果更佳。条件训练能够在保持MLE（最大似然估计）能力的同时实现更好的对齐效果，这一发现与之前的研究结果一致，表明对齐和模型能力在许多实际任务中并非完全对立。

虽然PHF需要额外的标注成本来建立奖励模型，但相比整体预训练成本，奖励模型推理的计算成本较低。这是因为奖励模型可以远小于正在预训练的LM，且通常在RLHF实验中减少其规模对性能影响不大。此外，通过蒸馏或极低比特精度（例如4比特）等技术优化推理效率，进一步降低了计算需求。更有意思的是，最近的后续研究表明，即便只对部分预训练数据加入控制标记，也能在毒性任务上取得良好的效果。

总的来说，在预训练中融入人类偏好有助于训练出更符合人类偏好的文本生成模型，即使在面对对抗性攻击时也表现出色。