阅读笔记-ON THE SAFETY OF OPEN-SOURCED LARGE LAN GUAGE MODELS: DOES ALIGNMENT REALLY PREVENT THEM FROM

  1. 研究背景:
    大型语言模型(LLMs)在自然语言生成(NLG)任务中取得了前所未有的性能。然而,许多研究表明,LLMs可能被滥用来生成不期望的内容。为了应对这一问题,模型开发者通常会在发布LLMs供公众访问之前,通过监督式微调(SFT)或带有人类反馈的强化学习(RLHF)对这些语言模型进行对齐。这样,对齐后的LLMs在面对可能有害/不道德的请求时会拒绝生成不期望的内容。然而,一个自然的问题是:“对齐真的能防止开源的大型语言模型被滥用以生成不期望的内容吗?”本文提供了一个否定的答案。
    在这里插入图片描述

  2. 过去方案和缺点:
    过去的对齐方案包括通过SFT或RLHF来改进LLMs的生成,使其更好地理解用户指令并避免生成不期望的输出。然而,尽管在提高LLMs安全性方面投入了大量努力,但这些对齐措施是否足以防止开源LLMs被滥用仍然是一个未解决的问题。此外,现有的攻击方法主要通过提示工程来实现,这些方法需要精心设计的提示或优化过程来绕过LLMs的安全对齐,但这些方法要么不够有效,要么计算成本过高。

  3. 本文方案和步骤:
    本文提出了一种名为Probability Manipulation (ProMan)的新方法,该方法直接操纵开源LLMs的生成过程,误导其生成不期望的内容,包括有害或有偏见的信息,甚至私人数据。ProMan的关键思想是通过对生成过程中的标记概率分布进行操纵,迫使LLM在特定位置生成特定的标记。ProMan通过肯定前缀(affirmative prefix)和否定反转(negation reversing)两种简单方法实现这一目标。肯定前缀在生成过程的开始设置一个肯定的基调,而否定反转则防止LLM生成可能导致拒绝回答的负面词汇。

  4. 本文实验和性能:
    作者在4个公开可用的开源LLMs上进行了全面实验,包括Vicuna、ChatGLM2、Marcoroni和Llama-2-LoRA。实验结果表明,ProMan在不

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值