Grok 4发布仅两天即遭「越狱」！号称“超越人类博士”的它，竟被轻松骗出了违禁内容？

最新推荐文章于 2025-07-17 11:00:18 发布

优快云资讯

最新推荐文章于 2025-07-17 11:00:18 发布

阅读量5.9k

点赞数 21

CC 4.0 BY-SA版权

文章标签：安全

本文链接：https://blog.youkuaiyun.com/csdnnews/article/details/149374244

整理 | 郑丽媛

出品 | 优快云（ID：优快云news）

投稿或寻求报道 | zhanghy@youkuaiyun.com

上周，xAI 重磅发布了其最新一代大语言模型 Grok 4，马斯克还在发布会上高调表示：“Grok 4 在每一个学科上都优于博士水平，没有任何例外。”

然而，仅仅两天之后，安全研究机构 NeuralTrust 就宣布已成功“越狱”了 Grok 4——不是用暴力破解或明显的恶意提示，而是通过一种更隐蔽、更高级的“组合攻击”方式，悄无声息地绕过模型防护机制，使其说出了本不该说的话。

没有敏感词，没有暴力指令，Grok 4 就这样“中招”了

如开头所说，在这次越狱中，NeuralTrust 研究人员没有输入任何明显的恶意关键词，比如“制造炸弹”、“毒品配方”或“暴力袭击”等——这些通常会立即触发大模型的安全护栏。但他们依然诱导 Grok 4 给出了“燃烧瓶制作指南”这种违禁内容。

这正是本次越狱攻击的可怕之处：攻击者使用了 Echo Chamber（回音室）+ Crescendo（渐进式）两种越狱技术的组合，在短短几轮对话中，就让模型“放松警惕”，最终生成了原本不该输出的信息。

而这两种攻击方法，其实早已被不同团队公开过：

● Echo Chamber：最早由 NeuralTrust 开发，其原理是通过“上下文投毒”的方式，在不触发敏感词过滤的情况下，逐步引导模型生成有害内容。这种攻击的关键在于永远不会直接输入那些容易触发模型“护栏”的危险词语，而是通过反复铺垫、引导，让模型在不知不觉中给出违禁信息。

● Crescendo：由微软在 2024 年 4 月首次提出。这是一种渐进式诱导机制，即“温水煮青蛙”式攻击路径。攻击者从安全边界附近的提示开始，一步步引用模型自己先前的回答内容，不断将话题推向危险边缘，直到模型逐步放松防御并生成敏感输出。

这两种攻击方式看似思路不同，但当结合使用时，攻击效果呈倍数增强：Echo Chamber 用于建立基础攻击路径，Crescendo 负责“补刀”推进，最终突破防线。

Grok 4 是如何一步步“沦陷”的？

据介绍，NeuralTrust 在 Grok 4 发布后的第二天，就尝试使用 Echo Chamber 让模型生成一份制作燃烧瓶（Molotov cocktail）的操作手册。他们表示，虽然 Echo Chamber 能够实现初步引导，但单靠这一手段仍无法完全突破模型的安全防护机制。

为此，他们接着引入了 Crescendo 技术，通过两轮补充引导，最终成功诱导模型输出完整的制作流程——整个过程未涉及任何显性敏感词，完全靠多轮上下文引导完成。

（出于安全原因，NeuralTrust 对 Grok 4 的输出结果进行了部分模糊处理）

“只要掌握两种方法的核心逻辑，组合使用其实并不复杂。”研究人员表示。

大体而言，NeuralTrust 的测试流程是：先以 Echo Chamber 为起点，当模型进入“停滞”状态时（即模型开始犹豫或重复回应），就引入 Crescendo 进行“补刀”。一般来说，这种组合方式在两轮对话内就能见效：要么模型成功识别意图并拒绝响应；要么就成功绕过防护，生成违禁内容。

组合型攻击，或成未来模型安全防护的大敌

为了验证这种组合攻击的适用范围，NeuralTrust 研究人员还选取了 Crescendo 原论文中的多个非法目标，对 Grok 4 进行了系统性测试：

对于这个结果，研究人员补充道：“在某些情况下，我们仅凭一轮提示就让 Grok 4 生成了恶意输出，甚至都无需执行 Crescendo 步骤——这说明 Grok 4 仍存在明显的防护缺口。”

在研究报告的最后，NeuralTrust 向所有 LLM 研发人员提出建议：将模型的多轮对话能力以及“细水长流式越狱”防护列为重点关注方向，因为这类攻击的隐蔽性和破坏力都“远超想象”。

毕竟，对于某些恶意攻击者来说，只要成功一次，就可能会造成严重的现实风险。

参考链接：https://neuraltrust.ai/blog/grok-4-jailbreak-echo-chamber-and-crescendo