一、简要介绍
论文提出的证据表明,通过有效地探索收集人类反馈以改进大型语言模型有实质性的好处。在论文的实验中,一个代理依次生成查询,同时拟合一个奖励模型的反馈收到。论文的最佳性能代理使用双汤普森抽样生成查询,其不确定性由一个认知神经网络表示。论文的结果表明,有效的探索可以用更少的查询实现高水平的性能。此外,不确定性估计和探索方案的选择都起着关键作用。
二、背景
大型语言模型在从大量的文本数据中学习后显示出显著的能力,来自人类反馈的强化学习(RLHF)也极大地改善了他们的行为。聊天机器人的使用提供了收集越来越多的人类反馈的机会。人们很自然地想知道,这种不断增长的数据来源会出现什么新功能。超越人类的创造力仍然是一种诱人的可能性。 随着数量的增加,可以从人类的反馈中推断出更多。这就提供了进一步超越预先训练过的模型的信心。但是考虑到这个过程只能从人类学习,论文怎么能指望超越人类的聪明才智出现呢?也许这样的结果是合理的,因为评估比综合新的内容更容易。这类似于,对于一个NP-complete的问题,虽然解决方案很困难,但验证所提出的解决方案却很容易。 例如,假设一个预先训练过的模型从它的训练数据中推断出大量的——也许是数百万或数十亿——的想法,其中一个是巧妙的。虽然人类可能还没有提出这个想法,但从足够多的人类反馈中学习,可以从模型产生的大量想法中识别出它。而且,在这一创新的基础上,进一步的外推可以继续扩大创造力的前沿。这样,有了足够的人类反馈,一个模型就应该能够生成人类无法生成的内容。但是,收集所需的反馈是否需要数月、数年或几十年呢? 作者在这篇论文中提出了对积极探索有巨大好处的证据。通过积极的探索,论文指的是量身定制的互动,以引出有用的反馈。特别是,论文的研究结果表明,通过更少的反馈,可以获得高水平的性能。这种加速可能会使超越人类的聪明才智更快,甚至几十年。 从人类反馈(RLHF)中强化学习的一种常见做法是向人类评分者发送查询,每个查询由一个提示和一对不同的回答组成。每个评分者都表达对其中一种反应的偏好。提示从语料库中提取,而回答则由大型语言模型生成。随着这一过程的进展,奖励模型拟合于数据,并引导随后的反应与收到的反馈相一致。 在本文中,论文将注意力限制在上述类型的交互上,其中每个查询都包含一个提示的和一对不同的回答。论文将使用语言模型对每对回答进行抽样的标准实践称为被动探索。论文比较了被动探索与几种主动探索算法的性能。一个是Boltzmann探索,它倾向于选择具有更高预测奖励的反应。论文还尝试了两种利用认知神经网络(ENN)提供的不确定性估计方法。第一个,论文称之为infomax,它选择了一对回答,目的是最大化反馈所揭示的信息。这属于广泛使用的旨在最大化信息获取的算法集合。第二种方法被称为双汤普森抽样,根据它们是最优的概率对回答进行抽样。 图1比较了使用不同探索算法产生的经验结果。产生这些结果的实验在第5节中有所描述。每个绘制的点都对应于所达到的一个性能水平。水平坐标标识双TS为达到该性能级别所需的查询数量,而垂直坐标标识替代方案所需的查询数量。被动探索的图线清楚地表明,使用双TS的主动探索极大地减少了达到高性能水平所需的查询数量。在论文尝试过的算法中,论文只使用了一个点估计奖励模型,而不使用不确定性估计,Boltzmann探索表现最好。Boltzmann的图线表明,不确定性估计,如使用双TS,可取得显著的改进。最后,infomax的图线显示,即使在利用不确定性估计的尝试和测试算法中,探索算法的选择如何导致巨大的性能差异。
虽然,据论文所知,这些是证明调优大型语言模型的积极探索的第一个结果,但它们建立在与探索算法相关的长期工作历史上。特别是,论文的问题是Contextual Dueling Bandit (CDB)的一个实例,论文的算法建立在信息搜索策略和汤普森抽样。此外,论文继续了一系列工作,利用神经网络将有效的探索算法扩展到越来越复杂的环境
三、实验pipeline
论文首先介绍了论文用于研究探索算法的实验pipeline。该pipeline建立在现有工具的基础上,包括Anthropic数据集和Gemini Nano和 Gemini Pro预训练语言模型。它利用了一个人类反馈模拟器,该模拟器生成对每个查询回答之间偏好的二进制表达式。该pipeline由两部分组成:学习pipeline和评估pipeline。前者在顺序查询和学习过程中控制代理和人工反馈模拟器之间的接口。后者控制了评估相对性能的语言预训练模型、新的回