论文阅读: 2024 ICLR AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

总目录 大模型安全相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

https://arxiv.org/pdf/2310.04451

https://www.doubao.com/chat/3992899011569410

[论文总结] AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

顶会论文 AutoDAN 复现
在这里插入图片描述

速览

这篇论文名为“AUTODAN: GENERATING STEALTHY JAILBREAK PROMPTS ON ALIGNED LARGE LANGUAGE MODELS”,主要研究大语言模型(LLMs)的越狱攻击问题,提出了一种名为AutoDAN的新方法,能自动生成隐蔽的越狱提示,具体内容如下:

  1. 研究背景:随着大语言模型被广泛应用,人们为其添加了安全功能,防止产生有害或不当回复。但越狱攻击出现了,它能让模型绕过安全机制,生成有害内容。现有越狱攻击方法存在局限性,手动编写的方法可扩展性差,基于学习的方法生成的提示语义无意义,易被检测。所以,研究人员想找到一种能自动生成隐蔽越狱提示的方法。
  2. 研究方法
    • 威胁模型和公式化:越狱攻击旨在让模型对恶意问题给出答案,而不是拒绝。研究人员将攻击目标设定为让模型生成特定开头的回复,并通过条件概率来表示攻击损失函数,以此优化越狱提示。
    • 遗传算法和分层遗传算法:遗传算法是受自然选择启发的优化算法。AutoDAN利用遗传算法,通过种群初始化、适应度评估、遗传策略和终止条件这几个步骤来生成越狱提示。其中,种群初始化借助大语言模型修改手工制作的提示,保证多样性;适应度评估采用对数似然函数计算损失;遗传策略包括交叉和变异操作,分层遗传算法(AutoDAN-HGA)还利用了文本数据的层次结构,在句子和段落层面分别进行操作;终止条件结合了最大迭代次数和拒绝信号测试。
  3. 实验
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值