
Trail of Bits的安全研究人员发现,Google Gemini CLI和其他生产环境中的AI系统可能被图像缩放攻击所欺骗,这是机器学习系统面临的一个众所周知的对抗性挑战。
Google认为这个问题并不构成安全漏洞,因为它依赖于非默认配置才能实现攻击。
图像缩放攻击的概念最初在2019年的USENIX安全会议论文中被讨论,该研究基于此前关于对抗性样本的工作,这些样本能够混淆计算机视觉系统。这种技术涉及将提示信息嵌入到图像中,指示AI违反其准则行事,然后操纵图像来对人眼隐藏提示信息。这需要以特定方式准备图像,使恶意提示编码与模型采用的任何图像缩放算法产生交互。
在一篇博客文章中,Trail of Bits安全研究人员Kikimora Morozova和Suha Sabi Hussain解释了攻击场景:受害者将恶意制作的图像上传到易受攻击的AI服务,底层AI模型根据图像中的隐藏指令执行数据窃取操作。
"通过传递用户不可见的多模态提示注入,我们在包括Google Gemini CLI在内的系统上实现了数据泄露,"Morozova和Hussain写道。"这种攻击之所以有效,是因为AI系统通常在将大图像发送到模型之前会将其缩小:当缩放时,这些图像可能会暴露在全分辨率下不可见的提示注入。"
提示注入发生在生成式AI模型接收到包含可信和不可信内容混合的输入时。这与越狱不同,后者只是旨在绕过安全机制的输入。
提示注入可能是直接的(由用户输入),也可能是间接的(当用户指示模型处理包含模型可以执行的指令的内容时)。后者的一个例子是要求AI模型总结包含恶意指令的网页——模型由于没有区分预期和非预期指令的固有能力,会简单地尝试遵循所有命令。
Morozova和Hussain描述的图像缩放攻击是一种间接提示注入形式,它比许多其他技术有更高的成功几率,因为恶意文本对用户是隐藏的——只有通过缩小图像

最低0.47元/天 解锁文章
1150

被折叠的 条评论
为什么被折叠?



