【论文阅读】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING

论文:Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING

作者:Youliang Yuan1,2,4∗ Wenxiang Jiao2 Wenxuan Wang2,3∗ Jen-tse Huang2,3∗ Jiahao Xu2 Tian Liang2 Pinjia He1,4† Zhaopeng Tu2

1School of Data Science, The Chinese University of Hong Kong, Shenzhen, China 2Tencent AI Lab 3The Chinese University of Hong Kong 4Shenzhen Research Institute of Big Data, China

摘要

这项研究通过识别和解决安全调优数据中的拒绝位置偏差,解决了大型语言模型 (LLM) 安全调优实践中的一个关键差距,该偏差损害了模型适当拒绝生成不安全内容的能力。我们引入了一种新颖的方法,即解耦拒绝培训(DeRTa),旨在使LLM能够在任何响应位置拒绝遵守有害提示,从而显着增强他们的安全能力。 DeRTa 包含两个新颖的组件:(1) 带有有害响应前缀的最大似然估计 (MLE),它通过在安全响应的开头附加一段有害响应来训练模型识别和避免不安全内容,以及 (2) 强化过渡优化 (RTO),使模型能够在整个有害响应序列中始终如一地从潜在危害过渡到安全拒绝。我们在六种攻击场景中使用LLaMA3和Mistral模型族进行的实证评估表明,我们的方法不仅在不影响性能的情况下提高了模型安全性,而且在防御攻击方面也超越了GPT-4等知名模型。重要的是,我们的方法成功地防御了最近突破GPT-4和LLaMA3-70B-Instruc的先进攻击方法(CodeAttack)

方法

作者发现,现有的大模型在被越狱提示词攻击时,如果拒绝响应越狱攻击往往会在第一个token上输出拒绝性的词语,这种格式在多个不同的大模型上都是类似且固定的,(1)作者认为让模型在一开始就拒绝回答会出现缺乏提示内容相关的知识而响应回答

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值