随着大型语言模型(LLM)的快速发展,使 LLM 与人类价值观和社会规范保持一致以确保其可靠性和安全性变得至关重要。人们提出了利用人类反馈的强化学习(RLHF)和宪法人工智能(CAI)来实现LLMs的调整。然而,这些方法要么需要大量的人工注释,要么需要明确的预定义规则,这需要消耗大量人劳动力及计算资源。为了克服这些缺点,论文研究了基于规则的LLM对齐,并提出了一种名为ITERALIGN的数据驱动的规则发现和自我对齐框架。I TERALIGN利用红队来揭示LLM的弱点,并使用更强大的LLM自动发现新的规则。然后,这些章程将用于指导基础LLMs的自我修正。这样的规则发现pipeline可以迭代地自动运行,以发现专门针对当前LLMs中的对齐差距的新规则。多个安全基准数据集和多个基础LLMs的实证结果表明,ITERALIGN 成功提高了真实性、乐于助人、无害性和诚实性,将LLMs的无害性一致性提高了高达 13.5%。
Introduction
大语言模型(LLM)已渗透到广泛的应用中,例如心理学(Demszky 等人,2023)、教育(Zelikman 等人,2023)、社会科学(Rao 等人,2023)和科学理解( Beltagy 等人,2019)。尽管预训练的LLMs能力很强,但它们仍然有其局限性。出现的显着挑战之一是一致性问题,LLMs的输出可能与人类道德标准或偏好(Liu et al., 2023)。这种不一致可能会导致内容有偏见、不准确或有害,从而导致不良结果。解决这个问题不仅涉及完善模型的训练数据和训练过程,