EchoGram漏洞可绕过主流大语言模型的护栏机制

AI安全公司HiddenLayer的最新研究揭露了当前主流大语言模型(LLMs)安全系统存在的漏洞,包括GPT-5.1、Claude和Gemini等模型。这项在2025年初发现的漏洞被命名为EchoGram,攻击者只需使用精心挑选的特定词语或代码序列,就能完全绕过旨在保护AI安全的自动化防御机制(即防护栏)。

EchoGram攻击原理

大语言模型通常通过两种防护栏机制进行保护:一种是采用独立AI模型评估请求(LLM-as-a-judge),另一种是使用简单的文本检查系统(分类模型)。这些防护栏主要用于识别和拦截有害请求,例如要求AI泄露机密信息(对齐绕过)或迫使其忽略自身规则(任务重定向,又称提示注入)。

EchoGram targets Guardrails

EchoGram攻击利用了这两类防护栏模型的训练机制。研究人员首先创建包含特定词语和符号的词表,从中找出训练数据中缺失或不平衡的序列(研究者称之为翻转令牌)。这些看似无意义的翻转令牌能够穿透防御层,在不改变原始恶意请求的情况下被主AI模型接收。攻击者通过使用翻转令牌,可使防御系统改变判断结果(即"翻转裁决")。

例如,HiddenLayer研究人员在测试其旧版防御系统时发现,仅需在恶意指令末尾添加随机字符串"=coffee",就能使系统误判通过。

EchoGram prompt working on gpt-4o

双重危害模式

深入研究表明,该技术可造成两种危害:一是让真正的恶意请求绕过防御;二是将完全无害的请求伪装成危险内容。后者引发的误报同样具有破坏性——安全团队若持续收到错误警报,可能降低对系统准确性的信任,研究人员Kasimir Schulz和Kenneth Yeung将这种现象称为"警报疲劳"。

值得注意的是,组合使用多个翻转令牌可增强攻击效果。研究团队预估,开发者仅有约3个月的防御窗口期,随着AI在金融、医疗等领域的加速应用,及时修复该漏洞至关重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值