本文是LLM系列文章,针对《ON THE SAFETY OF OPEN-SOURCED LARGE LANGUAGE MODELS: DOES ALIGNMENT REALLY PREVENT THEM FROM BEING MISUSED?》的翻译。
关于开源大型语言模型的安全性:对齐真的能防止它们被滥用吗?
摘要
大型语言模型(LLM)在自然语言生成(NLG)任务中取得了前所未有的性能。然而,许多现有的研究表明,它们可能被滥用以生成不想要的内容。作为回应,在发布LLM供公众访问之前,模型开发人员通常通过监督微调(SFT)或人工反馈强化学习(RLHF)来调整这些语言模型。因此,当面临潜在的有害/不道德的请求时,这些一致的大型语言模型拒绝生成不想要的内容。一个自然的问题是“对齐真的能防止那些开源的大型语言模型被滥用来生成不想要的内容吗?”。在这项工作中,我们对这个问题给出了否定的答案。特别是,我们展示了那些开源、对齐的大型语言模型很容易被误导,在没有大量计算或仔细提示设计的情况下生成不想要的内容。我们的关键思想是直接操纵开源LLM的生成过程,误导它生成不想要的内容,包括有害或有偏见的信息,甚至私人数据。我们对4个可公开访问的开源LLM评估了我们的方法,我们的发现强调了对开源LLM采取更先进的缓解策略的必要性。