[论文阅读]Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models | OpenReview

The Twelfth International Conference on Learning Representations

Spotlight  ICLR-2024

摘要

我们介绍了一种新的越狱攻击方法,针对使用对齐的大型语言模型(LLM) 的视觉语言模型(VLM),这种方法能够抵抗仅限文本的越狱攻击。具体来说, 我们开发了一种跨模态对齐攻击方法,将对抗性图像与文本提示配对,通过视觉编码器传递到语言模型,从而破坏其对齐机制。我们的攻击方法采用一种新的组合策略,将对抗性目标图像与普通提示相结合,以诱导越狱。因此,大型语言模型会在这种上下文下回答对抗性图像生成的提示。生成的表面无害的对抗性图像利用了一种新的基于嵌入空间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值