ITERALIGN: Iterative Constitutional Alignment of Large Language Models(大型语言模型的迭代对齐)

文章介绍了一种新的框架_LITERALIGN,它利用红队和强大的LLMs自动发现规则,以解决大语言模型的一致性问题,无需大量人工干预。实验结果表明,这种方法显著提高了LLMs的真实性和无害性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


随着大型语言模型(LLM)的快速发展,使 LLM 与人类价值观和社会规范保持一致以确保其可靠性和安全性变得至关重要。人们提出了利用人类反馈的强化学习(RLHF)和宪法人工智能(CAI)来实现LLMs的调整。然而,这些方法要么需要大量的人工注释,要么需要明确的预定义规则,这需要消耗大量人劳动力及计算资源。为了克服这些缺点,论文研究了基于规则的LLM对齐,并提出了一种名为ITERALIGN的数据驱动的规则发现和自我对齐框架。I TERALIGN利用红队来揭示LLM的弱点,并使用更强大的LLM自动发现新的规则。然后,这些章程将用于指导基础LLMs的自我修正。这样的规则发现pipeline可以迭代地自动运行,以发现专门针对当前LLMs中的对齐差距的新规则。多个安全基准数据集和多个基础LLMs的实证结果表明,ITERALIGN 成功提高了真实性、乐于助人、无害性和诚实性,将LLMs的无害性一致性提高了高达 13.5%。

Introduction

大语言模型(LLM)已渗透到广泛的应用中,例如心理学(Demszky 等人,2023)、教育(Zelikman 等人,2023)、社会科学(Rao 等人,2023)和科学理解( Beltagy 等人,2019)。尽管预训练的LLMs能力很强,但它们仍然有其局限性。出现的显着挑战之一是一致性问题,LLMs的输出可能与人类道德标准或偏好(Liu et al., 2023)。这种不一致可能会导致内容有偏见、不准确或有害,从而导致不良结果。解决这个问题不仅涉及完善模型的训练数据和训练过程,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值