本文是LLM系列文章,针对《The Superalignment of Superhuman Intelligence with Large Language Models》的翻译。
超人类智能与大型语言模型的超对齐
摘要
由于大型语言模型和多模态语言模型的快速发展,我们目睹了超人的智能。随着这种超人模型的应用越来越流行,这里出现了一个关键问题:我们如何确保超人模型仍然安全、可靠,并且与人类价值观保持一致?在这篇立场论文中,我们从学习的角度讨论了超对齐的概念,通过概述从大规模预训练、监督微调到对齐训练的学习范式转变来回答这个问题。我们将超对齐定义为当任务变得非常复杂,需要人类专家进行注释,并且模型比人类专家更强时,设计有效和高效的对齐算法,以可扩展的方式从有噪声的标记数据(逐点样本或成对偏好数据)中学习。我们强调了超对齐中的一些关键研究问题,即弱到强的泛化、可扩展的监督和评估。然后,我们提出了一个超对齐的概念框架,该框架由三个模块组成:攻击者生成对手查询,试图暴露学习者模型的弱点;学习者将通过从评论家模型和最少的人类专家生成的可扩展反馈中学习来完善自己;以及为给定的查询-响应对生成批评或解释的评论家,其目标是通过批评来提高学习者。我们讨论了该框架每个组成部分中的一些重要研究问题,并强调了与我们提出的框架密切相关的一些有趣的研究思路,例如自我对齐、自我游戏、自我完善等。最后,我们强调了超对齐的一些未来研究方向,包括识别新出现的风险和多维对齐。
1 引言
2 从学习角度定义超对齐
3 超对齐研究中的关键问题
4 实现超对齐的框架
5 结论和未来方向
本文讨论了超人类人工智能系统与大型语言模型的超对齐问题。我们通过概述学习范式从预训

订阅专栏 解锁全文
277

被折叠的 条评论
为什么被折叠?



