总目录 大模型安全相关研究:https://blog.youkuaiyun.com/WhiffeYF/article/details/142132328
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
https://arxiv.org/pdf/2310.04451
https://www.doubao.com/chat/3992899011569410
[论文总结] AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
文章目录
速览
这篇论文名为“AUTODAN: GENERATING STEALTHY JAILBREAK PROMPTS ON ALIGNED LARGE LANGUAGE MODELS”,主要研究大语言模型(LLMs)的越狱攻击问题,提出了一种名为AutoDAN的新方法,能自动生成隐蔽的越狱提示,具体内容如下:
- 研究背景:随着大语言模型被广泛应用,人们为其添加了安全功能,防止产生有害或不当回复。但越狱攻击出现了,它能让模型绕过安全机制,生成有害内容。现有越狱攻击方法存在局限性,手动编写的方法可扩展性差,基于学习的方法生成的提示语义无意义,易被检测。所以,研究人员想找到一种能自动生成隐蔽越狱提示的方法。
- 研究方法
- 威胁模型和公式化:越狱攻击旨在让模型对恶意问题给出答案,而不是拒绝。研究人员将攻击目标设定为让模型生成特定开头的回复,并通过条件概率来表示攻击损失函数,以此优化越狱提示。
- 遗传算法和分层遗传算法:遗传算法是受自然选择启发的优化算法。AutoDAN利用遗传算法,通过种群初始化、适应度评估、遗传策略和终止条件这几个步骤来生成越狱提示。其中,种群初始化借助大语言模型修改手工制作的提示,保证多样性;适应度评估采用对数似然函数计算损失;遗传策略包括交叉和变异操作,分层遗传算法(AutoDAN-HGA)还利用了文本数据的层次结构,在句子和段落层面分别进行操作;终止条件结合了最大迭代次数和拒绝信号测试。
- 实验

订阅专栏 解锁全文
1091

被折叠的 条评论
为什么被折叠?



