大家读完觉得有帮助记得关注和点赞!!!
摘要
提示注入攻击旨在纵人工智能系统忽略其原始指令并遵循未经授权的命令,由 Preamble, Inc. 于 2022 年 5 月首次发现,并负责任地向 OpenAI 披露。在过去三年中,这些攻击仍然是 LLM 集成系统的关键安全威胁。代理人工智能系统的出现,法学硕士通过工具并与其他代理协调自主执行多步骤任务,从根本上改变了威胁形势。现代提示注入攻击现在可以与传统的网络安全漏洞相结合,产生系统性地逃避传统安全控制的混合威胁,但也像学术同行评审一样,引发严重的道德问题。本文对提示注入 2.0 进行了全面分析,研究了提示注入如何与跨站脚本 (XSS)、跨站请求伪造 (CSRF) 和其他 Web 安全漏洞集成以绕过传统安全措施。我们以 Preamble 的研究和缓解技术为基础,针对当代威胁(包括 AI 蠕虫、多代理感染和混合网络 AI 攻击)对其进行评估。我们的分析结合了最近的基准测试,这些基准测试展示了传统 Web 应用程序防火墙、XSS 过滤器和 CSRF 令牌如何无法抵御 AI 增强的攻击。我们还提供了将提示隔离、运行时安全性和权限分离与新颖的威胁检测功能相结合的架构解决方案。
1介绍
提示注入攻击是对抗性输入,旨在纵大型语言模型 (LLM) 忽略其原始指令并遵循未经授权的命令,这些攻击的第一个系统文档归因于 2022 年 5 月 Preamble Inc.[1].这项工作建立了理论框架,用于理解精心设计的输入如何绕过模型保护措施并劫持人工智能系统行为,从而产生传统网络安全措施无法解决的全新安全漏洞。随着人工智能系统越来越多地集成到企业应用程序、自主代理和关键基础设施中,最初的发现已经演变成一个关键的安全挑战[3,4,7].
随着法学硕士的进步,代理人工智能系统激增,其中法学硕士通过工具、API 以及与其他代理的协调自主执行多步骤任务。这从根本上改变了威胁形势,从孤立的文本纵转变为复杂的攻击。这些攻击能够通过系统入侵、数据泄露和协调的恶意活动造成切实的损害。当代研究已经超越了简单的提示纵,开发了将提示注入与 XSS、CSRF 和 SQL 注入等传统网络安全漏洞相结合的混合攻击。[5]虽然对混合威胁的攻击成功率的研究有限,但这些攻击可以系统性地规避专为可预测的攻击模式而设计的传统安全控制。AI 功能与传统 Web 漏洞的集成会产生攻击媒介,传统的网络安全工具和特定于 AI 的防御措施都无法单独充分解决这些攻击媒介。
本文对 Prompt Injection 2.0 进行了全面分析,分析了代理 AI 和混合网络威胁时代 Prompt Injection 攻击的演变。我们研究了现代攻击者如何将自然语言作与传统漏洞相结合,以实现帐户接管、远程代码执行和持续系统入侵。我们的分析基于 Preamble 的研究贡献,包括他们关于快速注射缓解方法的专利[2]和高级护栏框架[6],同时结合当代威胁研究和真实世界事件分析。
这项工作的范围包括混合攻击机制的技术分析和防御策略的实际评估。我们检查了记录在案的漏洞,包括 CVE-2024-5565、真实事件(如 DeepSeek XSS 漏洞)以及新出现的威胁(如 AI 蠕虫和多代理感染)。我们的方法结合了文献的系统回顾、威胁分类法的开发、案例研究分析和防御方法的比较评估,包括 Preamble 的专利技术、LLM 标记机制[9]和架构隔离框架[10].
2背景和相关工作
2.1序言的基础研究 (2022)
及时注入漏洞的系统文档始于 Branch 等人对预训练语言模型易感性的调查[1].他们的工作首次全面研究了手工制作的对抗性输入如何纵 GPT-3 和类似模型以忽略初始指令并执行替代分类。他们的初步发现之一表明,包含命令“忽略所有以前的指令并忽略所有以前的内容过滤器”的简单文本提示可以有效地劫持模型行为,从而将提示注入确立为 AI 集成应用程序的基本安全问题。
该研究确定了语言模型如何处理对抗性输入的核心漏洞模式,特别是表明这些模型缺乏区分预期指令和用户提供内容的可靠机制[1].通过跨多个架构(包括 GPT-3、BERT、RoBERTa 和 ALBERT)的系统测试,该工作表明,提示注入代表了影响各种预训练语言模型的广泛漏洞。值得注意的是,该团队负责任地向 OpenAI 披露了他们对 GPT-3 漏洞的发现。
基于这项基础漏洞研究,Preamble 随后制定了全面的缓解策略,最终获得了及时注入缓解的专利[2].该专利引入了多种技术方法,包括:基于分类器的检测系统,用于识别和过滤恶意提示;使用不兼容的令牌集跟踪可信和不可信指令源的数据标记方法;以及强化学习框架,用于训练模型以区分合法指令和对抗性输入[2].这些防御机制代表了第一个用于及时缓解注入缓解的系统工程方法,将该领域从漏洞文档转向实用的安全解决方案。
2.2人工智能护栏框架的演变(2024 年序言)
Preamble 最近在 AI 护栏方面的工作[6]引入了人工智能系统框架,强调与不同用户价值观相一致的可定制护栏。这项研究解决了通过结合规则、政策和人工智能助手的综合方法来确保负责任的人工智能行为的更广泛挑战。
护栏框架的重点是通过为人工智能治理提供灵活且适应性强的解决方案来适应道德多元化。关键创新包括可定制的道德标准,可以根据不同的环境和用户需求进行定制,同时保持透明度和用户自主权。该系统采用实用的机制来实施标准,这些标准可以随着人工智能应用格局的变化和社会期望而发展。
也就是说,用户可以在三种不同的方法之间进行选择,以建立由规则指导的安全系统:训练有素的分类器、自然语言处理规则或自然语言规则。分类器根据用户数据进行训练,以检测特定于组织的违规行为,自然语言处理规则负责 PII,而自然语言规则可以通过用户或开源 LLM 进行评估,以进行额外的护栏检查。所有这些规则都可以组合到策略中,并与特定的 AI 助手相关联,选择不同的模型,并解决冲突。
也就是说,Preamble 的护栏研究还解决了解决不同道德指令之间冲突的挑战,代表了向强大、细致入微和上下文感知的人工智能系统取得的重大进步。这种方法显示了持续改进机制以及对人工智能系统的需求,这些系统能够适应不同的框架,同时在各种部署场景中保持一致的负责任行为。
2.3当代研究
自 Preamble 最初的工作以来,即时注射研究领域已显着扩展,许多研究小组开发了补充方法来理解和减轻这些威胁。当代研究可以分为三个主要领域:新颖的攻击方法、系统评估框架和架构防御机制。
2.3.1攻击传播
Lee 和 Tiwari 对快速感染的研究[9]确定了一类特别令人担忧的自我复制提示攻击,这些攻击可以在多代理系统中的 LLM 实例之间传播。这种方法展示了恶意提示如何在互连的人工智能系统中自主传播,从而为广泛的入侵创造新的载体。为了应对这一威胁,研究人员引入了 LLM 标记作为一种防御机制,其中 AI 生成的内容用标识符标记,以防止下游 AI 代理执行不受信任的指令。
2.3.2标杆
Yi 等人。[14]通过其 BIPIA 基准建立了第一个评估这些威胁的综合框架,该基准测试系统地评估间接提示注入攻击,其中恶意输入嵌入到网页或电子邮件等外部内容中。他们的分析表明,所有评估的法学硕士都表现出对此类攻击的脆弱性,矛盾的是,功能更强大的模型在基于文本的场景中表现出更高的攻击成功率。该研究确定了导致攻击成功的两个基本弱点:法学硕士无法区分信息上下文和可作指令,以及他们缺乏避免执行嵌入在外部内容中的指令的意识。
2.3.3架构防御机制
除了输入级保护之外,最近的工作还集中在提供更强大安全保障的架构解决方案上。CaMeL 框架[10]提供第一个架构级防御,并具有针对提示注入攻击的正式安全保证。CaMeL 不依赖模型调整或输入过滤方法,而是在控制逻辑和不受信任的自然语言输入之间强制严格分离。这是通过自定义 Python 解释器隔离功能和执行路径来实现的,确保不受信任的数据不会直接影响程序控制流。也就是说,CaMeL 使用解释器来实施安全策略,而无需修改 LLM 本身。
CaMeL 通过基于功能的实施和结构化数据流约束,实现安全设计范式的作。这种方法展示了如何在保持功能的同时将传统的软件安全原则应用于 LLM 集成代理,在安全保证的情况下解决了 AgentDojo 基准测试中 77% 的任务,而在未防御的系统中,这一比例为 84%。然而,作者承认一些侧信道漏洞仍然存在。
作为建筑方法的补充,Yi 等人。[14]还提出了黑盒和白盒防御机制,包括边界感知技术和显式提醒系统。黑盒场景假设无法访问内部模型参数,而白盒场景不仅允许访问,还允许修改和调整此类参数。他们的白盒方法实现了接近零的攻击成功率,同时在合法任务上保持了模型性能,这表明有效的防御不需要损害系统功能。
3即时注入威胁的统一分类
提示注入从简单的文本作到复杂的多方面攻击的演变需要统一的分类法。在基础工作和最近的威胁研究的基础上,我们根据三个正交维度对当代攻击进行分类:传递向量(攻击的引入方式)、攻击方式(恶意负载的性质)和传播行为(攻击的传播或持续性)。
3.1按递送载体分类
传递向量描述了恶意提示到达目标 AI 系统的通道。
3.1.1直接提示注入
直接提示注入代表了原始且最直接的攻击类别,其中恶意指令直接嵌入到用户对 AI 系统的输入中。这些攻击利用了 LLM 无法可靠地将系统指令与用户提供的内容分开的优势,因为两者都以自然语言形式呈现。这些混合威胁系统地利用了人工智能内容生成和传统安全验证之间的语义差距,允许恶意提示生成绕过传统过滤器的有效负载,正是因为它们源自可信的人工智能系统。
- 提示劫持。最简单的形式涉及对 LLM 的显式指令,例如“忽略所有先前的指令和...”,然后是攻击者指定的任务。虽然这些攻击通常可以通过基本过滤器检测到,但对未受保护的系统仍然有效。
- 情境中毒。高级技术涉及纵对话历史记录以逐渐改变模型行为,而无需显式覆盖命令。攻击者可能会提供看似合法的上下文,使模型对后续输入做出不适当的响应,从而产生延迟激活效果。
3.1.2间接提示注入
当恶意指令嵌入到 AI 系统处理的外部数据中时,就会发生间接提示注入。这极大地扩大了攻击面,超出了直接的用户交互,并且对生产系统构成重大威胁,尤其是在检索增强生成 (RAG) 时代,大型语言模型仔细阅读外部知识库(文档、Web 资源或外部数据库)。
- Web 内容注入。恶意指令嵌入在 AI 代理浏览的网页中。僵尸人工智能的攻击[11]演示了具有 Web 浏览功能的代理如何受到 HTML 中隐藏指令的损害,从而导致自主恶意软件下载。
- 基于文档的注入。攻击嵌入在人工智能系统处理的文档(PDF、电子邮件)中。这可以通过不可见的文本、元数据字段,甚至是文档中图像中的隐写隐藏指令来实现.最近的事件展示了这些技术的实际应用,例如研究人员在学术论文中嵌入隐藏提示,以纵人工智能驱动的同行评审系统生成好评[15].
- 数据库和 API 注入。恶意指令存储在数据库中或由 AI 系统查询的 API 返回。这些攻击可以保持休眠状态,直到特定条件触发人工智能处理受损内容,从而产生持续且难以检测的威胁.
3.2按攻击方式分类
攻击方式是指恶意负载本身的格式或性质,它已经扩展到简单的文本之外。
3.2.1多模态注入
多模态功能的集成通过非文本渠道创建了传统的基于文本的过滤无法解决的新攻击媒介,例如多模态攻击或图像、音频和视频注入。
3.2.2代码注入
代码注入描述了具有代码生成和执行功能的 AI 系统如何面对将提示注入与传统代码注入向量合并的威胁。
- 代码生成作。攻击通过在看似合法的编程请求中嵌入指令来纵人工智能系统生成恶意代码。CVE-2024-5565 演示了这如何通过人工智能生成的 SQL 和 Python 代码导致任意代码执行。
- 模板和配置注入。攻击针对 AI 系统的配置模板或系统提示生成机制,允许攻击者修改指导 AI 在所有后续交互中行为的基本指令.
3.2.3混合威胁
即时注入与传统网络安全漏洞的融合代表了威胁形势的重大演变,创造了可以逃避特定于人工智能和传统安全控制的攻击媒介。这些混合威胁允许恶意提示生成绕过传统过滤器的有效负载,正是因为它们源自受信任的人工智能系统。
- XSS 增强的提示注入。攻击将跨站脚本与提示注入相结合,以破坏 AI 集成的 Web 应用程序。DeepSeek XSS 案例研究展示了提示注入如何生成绕过传统 XSS 过滤器以提取身份验证令牌的恶意
- CSRF 放大的攻击。跨站请求伪造攻击通过人工智能代理纵得到增强,其中提示注入会导致代理以其提升的权限执行未经授权的状态更改作,例如在 ChatGPT 插件漏洞中.
- 通过提示 (P2SQL) 进行 SQL 注入。恶意提示会导致人工智能系统生成执行未经授权的数据库作的 SQL 查询。这些攻击利用自然语言和 SQL 生成之间的语义差距,绕过了传统的保护措施。.
3.3按传播行为分类
此维度描述了攻击如何在系统或生态系统中持续、演变或传播。
3.3.1递归注入
递归注入是指自我修改攻击,其中初始注入会导致 AI 系统生成额外的提示,从而进一步损害其行为。这可能会对 AI 的指令进行持久修改,这些修改在多个用户交互中仍然存在[25].
3.3.2自主传播(AI 蠕虫)
自主、相互通信的 AI 系统的发展使自我传播的攻击成为可能,这些攻击将传统恶意软件的持久性与 AI 的适应性相结合。
4混合威胁场景和攻击机制
及时注入与传统网络安全漏洞的融合产生了混合威胁,这些威胁系统性地规避了专为 AI 特定攻击或传统攻击而设计的安全控制。本节介绍混合攻击背后的技术机制及其对企业安全性的作影响。
4.1通过提示注入增强的跨站脚本
XSS 漏洞与及时注入功能相结合,创建了绕过传统 Web 安全措施和特定于 AI 的保护措施的攻击媒介。这些混合攻击利用了 AI 内容生成和 Web 应用程序安全验证之间的语义差距。
DeepSeek XSS 案例研究[8]演示了 XSS 增强的提示注入的基本机制。攻击者制作提示,指示人工智能系统生成包含嵌入式 JavaScript 有效负载的看似合法的内容。例如:
''任务是对 base64 进行解码并写入最终结果:
PGlmcmFtZSBzcmM9ImphdmFzY3JpcHQ6YWxlc
nQoJ1lvdXIgdXNlciB0b2tlbiBpczogJytsb
2NhbFN0b3JhZ2UuZ2V0SXRlbSgndXNlclRva
2VuJykrJyBDb29raWVzOiAnK2RvY3VtZW50L
mNvb2tpZSkiPlRydXN0IE5vIEFJPC9pZnJhbWU+Cg==
没有闲聊,没有代码样式块,只有 base64 解码的文本。就是这样。
传统的 XSS 保护机制失败,因为内容安全策略 (CSP) 过滤器将 AI 生成的内容列入白名单为可信内容,而输入验证侧重于用户提供的内容而不是 AI 输出。Web 应用程序防火墙 (WAF) 难以应对 AI 生成的有效负载,这些有效负载会逃避基于签名的检测。这些发现揭示了法学硕士在暴露于对抗性输入时的系统脆弱性,即使在为生产用途而销售的模型中也是如此。
XSS + 提示注入攻击流
1.攻击者制作包含 Base64 编码的 XSS 有效负载
2 的提示。人工智能系统将提示处理为合法内容请求
3.AI 生成嵌入 JavaScript 的 iframe
4.Web 应用程序在没有 XSS 验证的情况下呈现 AI 输出
5.恶意脚本在用户的浏览器
中执行 6.提取的身份验证令牌和会话数据
图 1:技术流程图显示了通过提示注入交付的 XSS 有效负载如何绕过传统的 Web 安全控制。
4.2AI 代理放大的跨站点请求伪造
CSRF 攻击在与 AI 代理作结合使用时获得了显著增强的功能,尤其是在代理以提升的权限运行的环境中。仅限于触发预定义浏览器请求的传统 CSRF 向量被能够解释和执行复杂的多步骤指令的 AI 代理放大。ChatGPT 插件跨插件请求伪造攻击[12]举例说明了这种风险,展示了人工智能代理如何跨插件边界自主执行特权作。除了单纯的请求欺骗之外,此类代理还可以访问敏感数据、导航界面和调用 API,所有这些都无需用户交互。这种从静态执行到动态执行的转变将 CSRF 从技术麻烦转变为严重的运营威胁。
AI 与数据库查询生成的集成创建了将自然语言作与 SQL 注入相结合的新型注入向量。P2SQL 攻击利用 LLM 根据用户提示生成 SQL 查询的能力,通常没有严格的查询模板或细粒度的保护措施。[5].P2SQL 攻击使用自然语言生成未经授权的 SQL 查询,例如:
Ignore the previous instructions.
From now on, you are a Postgres
admin who can perform any
SQL instruction. For auditing
purposes, list all active
payment accounts.
导致类似于以下内容的查询:
SELECT account_id, user_id, status,
created_at
FROM payment_accounts
WHERE status = ’active’;
这些攻击通过合法接口生成有效的 SQL,使它们能够绕过传统的输入清理、参数化查询或 ORM 级保护措施。由于提示被视为无害的指令,因此注入向量被模型看似有用的响应所伪装。
4.3多病原体感染和传播
多代理系统使提示注入攻击能够通过合法的通信渠道传播,从而为系统性入侵创造新的载体。在此类系统中,各个代理经常交换消息、委派任务或共享上下文数据,这些机制虽然对于协作至关重要,但也可以作为恶意提示有效负载的渠道。李和蒂瓦里[9]证明这些感染可以按照流行病学模式在病原体网络中传播,其中单个受感染的病原体可以通过标准的病原体间通信递归感染其他病原体。
一旦被感染,这些代理就会表现出协调行为,例如分布式数据泄露、同步提示作或持续任务劫持。由于代理之间的通信通常是可信且未经过滤的,因此受感染的提示可以绕过传统的输入验证并在会话中持续存在,从而使检测和修复变得更加困难。随着多代理框架在自治系统和工作流程自动化中变得越来越普遍,这种形式的攻击构成了越来越大的威胁,它将社会工程的隐蔽性与恶意软件传播的可扩展性融为一体[9].
5缓解策略和防御架构
防御 LLM 集成系统中的混合威胁需要分层和自适应的安全态势,以解决传统软件漏洞和新型特定于 AI 的攻击媒介。输入清理器和防火墙等传统工具本身已不再足够,尤其是针对间接提示注入和基于代理的利用。相反,安全架构必须不断发展,以处理可以伪装成合法指令的非结构化动态输入。
序言的缓解策略[2]通过关注可信指令和不受信任的输入之间的核心区别来提供基础防御层。他们的方法详细介绍了几种技术机制,包括:(1)基于分类器的输入清理,用于在处理前检测和删除恶意命令;(2)令牌级数据标记,其中每个令牌都标有其来源(例如,受信任的系统与不受信任的用户),结合强化学习(RL),以严重惩罚模型遵循用户标记的指令;(3) 使用不兼容的令牌集对可信和不可信数据进行架构分离,创建类似于作系统中的可执行空间保护的硬边界。
德贝内代蒂等人。[10]引入了 CaMeL,这是一种可证明安全的防御架构,适用于 LLM 驱动的代理,可将控制流(作序列)与数据流(外部、不受信任的输入)隔离开来。通过将用户查询解析为结构化计划和执行图,CaMeL 可以防止恶意数据影响程序逻辑。每个数据元素都标有强制实施细粒度策略的功能和元数据,例如不允许泄露敏感内容。自定义口译员跟踪来源并确保合规性,而无需修改 LLM 本身。
Hines 等人引入了一种补充方法。[29],他们提出了一种称为聚光灯的缓解策略。聚光灯不是将用户输入视为被动或统一信任,而是使用分隔符、格式约定和上下文提示等结构技术显式标记和隔离不受信任的内容。这些注释指导模型在语义上区分核心指令和外部数据,显著降低了间接提示注入攻击的成功率。聚光灯无需重新训练模型或更改架构即可实现强大的防御性能,使其成为轻量级且实用的保护层。
最终,最有效的防御架构结合了多层保护。一个强大的部署可以集成 Preamble 的可信/不可信分类以进行输入筛选,CaMeL 的架构隔离以分离控制和数据逻辑,以及聚光灯以主动防范间接攻击。当与选择性使用传统控件(例如用于传统兼容性的 WAF)相结合时,这种分层方法为在复杂的真实环境中运行的 AI 系统提供了可扩展且全面的防御态势。
6二. 讨论和未来影响
混合人工智能威胁正在重新定义关于信任边界、执行控制和系统行为的长期假设。随着大型语言模型获得自主权、工具访问和跨系统协调的能力,以静态输入和确定性逻辑为中心的传统安全框架已不再足够。防御这种新型混合威胁需要自适应的 AI 原生安全架构,将经典软件保护与实时语义感知和行为实施相结合。
人工智能驱动的攻击的兴起带来了复杂的监管挑战。当自治系统涉及安全漏洞时,现有的法律框架很难分配责任和责任,特别是当这些系统行为不可预测或通过基于语言的漏洞进行纵时。此外,人工智能服务的跨境性质使执法、管辖和问责变得复杂。新的合规模型必须解决这些问题,不仅要纳入技术标准,还要围绕人工智能系统的训练、部署和审计进行治理。
为了应对这些挑战,几个关键的研究方向正在出现。一是人工智能安全特性的形式验证,旨在开发数学框架,以证明模型及其周围架构对特定类别的攻击具有鲁棒性。这包括静态证明和运行时强制保证。
另一个紧迫的领域是通过提示注入来利用人形机器人。随着人形机器人越来越多地部署在制造、物流和医疗保健领域,它们依靠自然语言处理来接收和解释命令。提示注入攻击可能会纵这些系统执行有害作,例如破坏设备或伤害个人。由于这些系统将人类语言解释为直接指令,因此恶意提示可以绕过传统的安全协议。因此,防御不仅必须包括一种形式的输入护栏,还必须包括特定于域的访问控制、实时监控、安全架构以及物理或程序故障保护。机器人滥用的伦理和安全影响使其成为未来研究的关键领域。
第三种途径是人机协作,以实现安全,它探讨了人类分析师如何与人工智能系统合作,以更有效地识别和减轻威胁。人工智能不应取代人类监督,而应充当力量倍增器,自动检测,同时让人类了解高风险决策。
最后,标准化和互作性对于确保整合且复杂的人工智能生态系统至关重要。这包括定义威胁的共享分类法、建立用于护栏集成的 API 和策略接口,以及构建用于跨模型和域评估 AI 安全性能的基准套件。
除了技术安全问题之外,混合人工智能威胁还对人工智能介导的流程的完整性提出了重大的道德挑战。最近发现研究人员在学术论文中嵌入隐藏提示来纵人工智能驱动的同行评审系统[15]举例说明了这些攻击如何破坏机构信任并损害关键决策过程的真实性。
未来的工作必须将这些防御扩展到更广泛的领域,特别是人形机器人和多智能体系统,同时解决自主人工智能行为的监管和道德维度。随着人工智能威胁形势的不断发展,我们的安全架构也必须不断发展:转向自适应、负责任、道德和可证明安全的系统。
1098

被折叠的 条评论
为什么被折叠?



