Jailbreak in Pieces: Compositional Adversarial Attacks on Multi-Modal Language Models
Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models | OpenReview
The Twelfth International Conference on Learning Representations
Spotlight ICLR-2024
摘要
我们介绍了一种新的越狱攻击方法,针对使用对齐的大型语言模型(LLM) 的视觉语言模型(VLM),这种方法能够抵抗仅限文本的越狱攻击。具体来说, 我们开发了一种跨模态对齐攻击方法,将对抗性图像与文本提示配对,通过视觉编码器传递到语言模型,从而破坏其对齐机制。我们的攻击方法采用一种新的组合策略,将对抗性目标图像与普通提示相结合,以诱导越狱。因此,大型语言模型会在这种上下文下回答对抗性图像生成的提示。生成的表面无害的对抗性图像利用了一种新的基于嵌入空间