EchoGram漏洞可绕过主流大语言模型的护栏机制

原创于 2025-11-18 09:30:43 发布 · 387 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#EchoGram漏洞 #AI

AI安全公司HiddenLayer的最新研究揭露了当前主流大语言模型（LLMs）安全系统存在的漏洞，包括GPT-5.1、Claude和Gemini等模型。这项在2025年初发现的漏洞被命名为EchoGram，攻击者只需使用精心挑选的特定词语或代码序列，就能完全绕过旨在保护AI安全的自动化防御机制（即防护栏）。

EchoGram攻击原理

大语言模型通常通过两种防护栏机制进行保护：一种是采用独立AI模型评估请求（LLM-as-a-judge），另一种是使用简单的文本检查系统（分类模型）。这些防护栏主要用于识别和拦截有害请求，例如要求AI泄露机密信息（对齐绕过）或迫使其忽略自身规则（任务重定向，又称提示注入）。

EchoGram targets Guardrails

EchoGram攻击利用了这两类防护栏模型的训练机制。研究人员首先创建包含特定词语和符号的词表，从中找出训练数据中缺失或不平衡的序列（研究者称之为翻转令牌）。这些看似无意义的翻转令牌能够穿透防御层，在不改变原始恶意请求的情况下被主AI模型接收。攻击者通过使用翻转令牌，可使防御系统改变判断结果（即"翻转裁决"）。

例如，HiddenLayer研究人员在测试其旧版防御系统时发现，仅需在恶意指令末尾添加随机字符串"=coffee"，就能使系统误判通过。

EchoGram prompt working on gpt-4o

双重危害模式

深入研究表明，该技术可造成两种危害：一是让真正的恶意请求绕过防御；二是将完全无害的请求伪装成危险内容。后者引发的误报同样具有破坏性——安全团队若持续收到错误警报，可能降低对系统准确性的信任，研究人员Kasimir Schulz和Kenneth Yeung将这种现象称为"警报疲劳"。

值得注意的是，组合使用多个翻转令牌可增强攻击效果。研究团队预估，开发者仅有约3个月的防御窗口期，随着AI在金融、医疗等领域的加速应用，及时修复该漏洞至关重要。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。