EIA: ENVIRONMENTAL INJECTION ATTACK ON GENERALIST WEB AGENTS FOR PRIVACY LEAKAGE-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_51657614/article/details/144221522

abstract

最近，多面手网络代理在自主完成真实网站上的广泛任务方面显示出显着的潜力，显着提高了人类的生产力。然而，网络任务，如预订航班，通常涉及用户的个人身份信息（PII），如果网络代理意外地与受感染的网站交互，这些信息可能会暴露在潜在的隐私风险中——这种情况在很大程度上仍未在文献中探索。在这项工作中，我们通过对对抗环境中多面手网络代理的隐私风险进行首次研究，缩小了这一差距。首先，我们提出了一个针对网站攻击的现实威胁模型，其中我们考虑了两个敌对目标：窃取用户的特定PII或整个用户请求。然后，我们提出了一种新的攻击方法，称为环境注入攻击（EIA）。EIA注入恶意内容，旨在很好地适应代理运行的环境，我们的工作实例化了EIA，专门用于网络环境中的隐私场景。我们从Mind2Web数据集中收集了177个操作步骤，这些步骤涉及到现实网站上的各种PII类别，并使用迄今为止最强大的通才web代理框架之一进行实验。结果表明，EIA在窃取用户特定PII方面的攻击成功率高达70%，在窃取操作步骤的完整用户请求方面的攻击成功率高达16%。此外，通过访问隐身性并试验防御系统提示，我们表明EIA很难检测和缓解。值得注意的是，不太适合网页的攻击可以通过仔细的人工检查检测到，这导致了我们关于安全性和自主性之间权衡的讨论。然而，额外的攻击者的努力可以使EIA无缝地适应，使这种人工监督无效。因此，我们进一步讨论了在不依赖人类监督的情况下，网站部署前后阶段对防御的影响，并呼吁采用更先进的防御策略。

1 INTRODUCTION 介绍

网络承载了大量的网站、工具和内容，涵盖了数字世界的各个方面。为了使这些资源更容易获得并提高人类生产力，需要进行大量研究工作(Yang等人，2024a；苏等，2024；刘等，2023b;c；Achiam et al ., 2023；Reid等人，2024)已经投入到基于web代理的大型语言模型（llm）和大型多模态模型（lmm）的开发中，特别是多面手web代理（Deng等人，2023），可以直接在现实网站上执行广泛的任务。另一方面，预订航班等许多网络任务需要敏感的个人信息，如电话号码和信用卡详细信息；而网络安全界长期以来一直在研究网站的隐私问题(Yang et al ., 2013；Li et al ., 2015；Wang et al ., 2019；VirusTotal, 2023)，通才网络代理的出现带来了新的隐私风险，突出了在这一领域进行全面研究的必要性。

图1：真实网站GameStop （gamestop.com）的EIA示意图。它显示了web代理被EIA入侵的过程，导致未经授权的用户PII泄露。具体而言，在网站上填写收件人姓名的步骤中，会误导web代理将PII输入到注入的字段中，该字段中包含恶意指令，并且该字段和指令都是不可见的。在未被注意到的泄漏之后，web代理继续其原始任务。

为了缩小这一差距，我们首先提出了一个新的威胁模型，在这个模型中，我们讨论了对网站进行现实隐私攻击的目标、约束和两种情况（第3.2节）。具体来说，我们考虑两个敌对目标：窃取用户的特定PII或窃取完整的用户请求。为了实现这些目标，我们提出了一种新的攻击方法，称为环境注入攻击（EIA）（第3.3节）。

EIA是间接提示注入的一种形式（Greshake等人，2023b），但专门设计用于操纵状态改变行为发生的环境（Su, 2023）。除了快速设计外，EIA还强调如何使注入适应环境，以获得更好的攻击成功率和更低的检测机会。在这项工作中，我们专门利用web环境来针对多面手web代理。在这种情况下，攻击者将恶意web元素注入良性网页，并附带具有说服力的指令，旨在误导web代理通过这些恶意元素泄露用户的私人信息。为了使攻击适应网页，我们提出了两种注入策略：表单注入（FI）和镜像注入（MI）。这两种策略都可以在网页的不同位置使用，并利用CSS和JavaScript的特性来确保其隐蔽性。特别是，注入元素的不透明度值默认配置为零，以防止网页上明显的视觉变化。

为了评估EIA的有效性，我们使用了最先进的（SOTA）网络代理框架之一SeeAct （Zheng et al ., 2024）作为我们的目标代理，这是一个两阶段的通才网络代理框架，包括动作生成和动作基础阶段。此外，我们从Mind2Web （Deng et al, 2023）数据集中仔细选择涉及PII的任务，并从其原始转储数据中手动调整相应的现实网站（第4.1节）。这些网站上的用户任务基于实际用户需求跨越不同的域，并包括177个操作步骤，涵盖多个PII类别。我们的实验结果表明，当注入靠近目标元件时，具有MI策略的EIA可以攻击SeeAct的动作接地阶段，并在一个动作步骤中泄漏用户的特定PII， ASR高达70%。这一发现表明，web代理可能容易受到注入的攻击，这些注入与网页上的良性目标元素非常相似（第4.2节）。

然而，我们发现，由于未受影响的动作生成阶段只处理截图，零不透明度约束的EIA未能实现泄漏完整请求的对抗目标。

因此，我们引入了relax - eia，它将不透明度从零松弛到一个非零的低值。这种调整使注入的元素在截图上略微可见，从而影响动作基础和动作生成阶段。结果表明，当使用GPT-4V作为骨干模型时，这种适应成功地将泄漏完整用户请求的ASR从0%（标准EIA）提高到16%（松弛EIA）（第4.3节）。

最后，我们通过使用传统的恶意软件检测工具和测量代理在攻击下的功能完整性等一系列努力来研究EIA的隐蔽性，并表明EIA很难被检测到。此外，我们还证明了我们的攻击不能被防御系统提示反击（第5节）。然而，重要的是要注意，当攻击不能很好地适应网页时，可以通过近距离的人工检查来检测攻击。因此，我们讨论了安全性和自主性之间的权衡，并指出了针对不同任务类型定制人工监督的挑战。更重要的是，人类的监督并不总是可靠的，额外的攻击者的努力可以进一步使攻击很好地适应每个网页，这样被破坏的网页就可以在视觉上与良性版本相同。除了人类监督之外࿰