Grok 4发布仅两天即遭「越狱」!号称“超越人类博士”的它,竟被轻松骗出了违禁内容?

图片

整理 | 郑丽媛

出品 | 优快云(ID:优快云news)

投稿或寻求报道 | zhanghy@youkuaiyun.com

上周,xAI 重磅发布了其最新一代大语言模型 Grok 4,马斯克还在发布会上高调表示:“Grok 4 在每一个学科上都优于博士水平,没有任何例外。”

然而,仅仅两天之后,安全研究机构 NeuralTrust 就宣布已成功“越狱”了 Grok 4——不是用暴力破解或明显的恶意提示,而是通过一种更隐蔽、更高级的“组合攻击”方式,悄无声息地绕过模型防护机制,使其说出了本不该说的话。

没有敏感词,没有暴力指令,Grok 4 就这样“中招”了

如开头所说,在这次越狱中,NeuralTrust 研究人员没有输入任何明显的恶意关键词,比如“制造炸弹”、“毒品配方”或“暴力袭击”等——这些通常会立即触发大模型的安全护栏。但他们依然诱导 Grok 4 给出了“燃烧瓶制作指南”这种违禁内容。

这正是本次越狱攻击的可怕之处:攻击者使用了 Echo Chamber(回音室)+ Crescendo(渐进式) 两种越狱技术的组合,在短短几轮对话中,就让模型“放松警惕”,最终生成了原本不该输出的信息。

而这两种攻击方法,其实早已被不同团队公开过:

● Echo Chamber:最早由 NeuralTrust 开发,其原理是通过“上下文投毒”的方式,在不触发敏感词过滤的情况下,逐步引导模型生成有害内容。这种攻击的关键在于永远不会直接输入那些容易触发模型“护栏”的危险词语,而是通过反复铺垫、引导,让模型在不知不觉中给出违禁信息。

● Crescendo:由微软在 2024 年 4 月首次提出。这是一种渐进式诱导机制,即“温水煮青蛙”式攻击路径。攻击者从安全边界附近的提示开始,一步步引用模型自己先前的回答内容,不断将话题推向危险边缘,直到模型逐步放松防御并生成敏感输出。

这两种攻击方式看似思路不同,但当结合使用时,攻击效果呈倍数增强:Echo Chamber 用于建立基础攻击路径,Crescendo 负责“补刀”推进,最终突破防线。

Grok 4 是如何一步步“沦陷”的?

据介绍,NeuralTrust 在 Grok 4 发布后的第二天,就尝试使用 Echo Chamber 让模型生成一份制作燃烧瓶(Molotov cocktail)的操作手册。他们表示,虽然 Echo Chamber 能够实现初步引导,但单靠这一手段仍无法完全突破模型的安全防护机制。

为此,他们接着引入了 Crescendo 技术,通过两轮补充引导,最终成功诱导模型输出完整的制作流程——整个过程未涉及任何显性敏感词,完全靠多轮上下文引导完成。

(出于安全原因,NeuralTrust 对 Grok 4 的输出结果进行了部分模糊处理)

“只要掌握两种方法的核心逻辑,组合使用其实并不复杂。”研究人员表示。

大体而言,NeuralTrust 的测试流程是:先以 Echo Chamber 为起点,当模型进入“停滞”状态时(即模型开始犹豫或重复回应),就引入 Crescendo 进行“补刀”。一般来说,这种组合方式在两轮对话内就能见效:要么模型成功识别意图并拒绝响应;要么就成功绕过防护,生成违禁内容。


组合型攻击,或成未来模型安全防护的大敌

为了验证这种组合攻击的适用范围,NeuralTrust 研究人员还选取了 Crescendo 原论文中的多个非法目标,对 Grok 4 进行了系统性测试:

对于这个结果,研究人员补充道:“在某些情况下,我们仅凭一轮提示就让 Grok 4 生成了恶意输出,甚至都无需执行 Crescendo 步骤——这说明 Grok 4 仍存在明显的防护缺口。”

在研究报告的最后,NeuralTrust 向所有 LLM 研发人员提出建议:将模型的多轮对话能力以及“细水长流式越狱”防护列为重点关注方向,因为这类攻击的隐蔽性和破坏力都“远超想象”。

毕竟,对于某些恶意攻击者来说,只要成功一次,就可能会造成严重的现实风险。

参考链接:https://neuraltrust.ai/blog/grok-4-jailbreak-echo-chamber-and-crescendo

推荐阅读:

曝马斯克 xAI 强制员工装监控软件,连鼠标没动都知道?有人当场辞职:“无法接受!”

“让我为 Firefox 付费!”

AI 搜索时代来了:“SEO 已死,GEO 万岁!”

2025 全球产品经理大会

8月15–16日·北京威斯汀酒店

互联网大厂&AI 创业公司产品人齐聚

12 大专题,趋势洞察 × 实战拆解

扫码领取大会 PPT,抢占 AI 产品新红利

图片

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

优快云资讯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值