The Superalignment of Superhuman Intelligence with Large Language Models

本文是LLM系列文章,针对《The Superalignment of Superhuman Intelligence with Large Language Models》的翻译。

摘要

由于大型语言模型和多模态语言模型的快速发展,我们目睹了超人的智能。随着这种超人模型的应用越来越流行,这里出现了一个关键问题:我们如何确保超人模型仍然安全、可靠,并且与人类价值观保持一致?在这篇立场论文中,我们从学习的角度讨论了超对齐的概念,通过概述从大规模预训练、监督微调到对齐训练的学习范式转变来回答这个问题。我们将超对齐定义为当任务变得非常复杂,需要人类专家进行注释,并且模型比人类专家更强时,设计有效和高效的对齐算法,以可扩展的方式从有噪声的标记数据(逐点样本或成对偏好数据)中学习。我们强调了超对齐中的一些关键研究问题,即弱到强的泛化、可扩展的监督和评估。然后,我们提出了一个超对齐的概念框架,该框架由三个模块组成:攻击者生成对手查询,试图暴露学习者模型的弱点;学习者将通过从评论家模型和最少的人类专家生成的可扩展反馈中学习来完善自己;以及为给定的查询-响应对生成批评或解释的评论家,其目标是通过批评来提高学习者。我们讨论了该框架每个组成部分中的一些重要研究问题,并强调了与我们提出的框架密切相关的一些有趣的研究思路,例如自我对齐、自我游戏、自我完善等。最后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值