【论文精读】Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis

原创已于 2024-09-15 17:00:46 修改 · 1.9k 阅读

·

41

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #论文阅读

于 2024-09-15 17:00:16 首次发布

论文：Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis

作者：Yuping Lin1, Pengfei He1, Han Xu1, Yue Xing1, Makoto Yamada2, Hui Liu1, Jiliang Tang1

发表：arxiv

代码：https://github.com/yuplin2333/representation-space-jailbreak

摘要

大型语言模型（LLM）容易受到一种被称为 "越狱 "的攻击，这种攻击会误导 LLM 输出有害内容。虽然越狱攻击策略多种多样，但对于为什么有些方法会成功，有些方法会失败，还没有统一的认识。本文探讨了有害和无害提示在 LLM 表示空间中的行为，以研究成功越狱攻击的内在属性。我们假设，成功的攻击具有一些相似的特性：它们能有效地将有害提示的表征向无害提示的方向移动。我们利用现有越狱攻击目标中的隐藏表征，使攻击沿着接受的方向移动，并利用提出的目标进行实验来验证上述假设。我们希望这项研究能为理解 LLM 如何理解有害信息提供新的见解。

方法

问题一：表征空间是什么？如何定义或者学习得来的？为什么能用来表示提示词

这个表征空间就是嵌入向量的维度，即提示词长度n乘以词汇表大小m，得到d纬的嵌入向量，再通过PCA主成分分析，对d纬向量降为到2纬空间

问题二：方向是什么？如何确定的。方向的改变意味着什么？

经过PCA降纬后的空间，观察几个数据，成功的越狱提示，失败的越狱提示，有害/无害的锚点提示，发现一个现象是越狱成功的提示中心从有害中心向无害中心移动，这个方向就是成功越狱提示引导的方向。方向改变意味着模型对该提示词的认知从有害转向无害。

观察对象：

1. 无害的锚点提示词

2. 有害的锚点提示词

3. 初始化的越狱提示词（包括成功的越狱攻击和失败的越狱攻击）

观察表征空间提示词发现：

1. 有害和无害的锚点提示词是分开的：作者观察到llama2-7b,llama2-13b,llama3-8b三个模型都能将有害和无害的提示词进行区分，但是未经过对齐的gemma-7b不能很好的区分有害/无害提示词，说明对齐的模型具备区分提示词有害/无害的能力

2.成功的越狱提示会将有害提示词引向无害提示词

从这一表格中可以观察到，大部分结论可以说明，成功越狱的提示词中心在向无害提示词中心移动，但是gemma-7b的一些结论不能说明这一观察，作者分析这是因为模型本身的对齐能力没有得到解释。

实验

作者提出将提示词从有害方向像无害方向转变可以增大提示的越狱成功率，所以提出下面的优化函数：

$\underset{x}{max}L(x)=[g(h(x))-g(h(x_0))]^\top e_\alpha$

但是该优化函数会使模型输出不符合主题的内容，所以作者提出一个优化策略：

首先通过字符串检测，对输出文本检测，如果现实越狱成功则继续生成，否则停止并重新生成，如果通过第一次检测，再利用微调的LLM进行检测，判断是否属于越狱内容。

附录

PCA降维，作者选取了模型最后一层的嵌入向量作为输入数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。