今天我们要聊一个很有意思也很重要的话题——大型语言模型也会被“骗”。这种“骗”模型做不该做的事的行为,有两个核心技术方向,分别是Jailbreak(越狱) 和Prompt Injection(提示词注入)。它们看似相似,但攻击目标、实现逻辑完全不同。今天我们就从“是什么、怎么实现、有什么案例”三个维度,把这两个技术讲透,帮大家理解模型安全的潜在风险。
一、先分清:Jailbreak与Prompt Injection的核心差异
在具体讲技术前,我们必须先明确一个关键区别:攻击的目标不一样。我用一个“人类类比”帮大家快速理解,这也是投影片里想强调的核心逻辑:
-
Jailbreak(越狱):攻击的是“语言模型本体”。就像给一个人催眠,让他做“绝对不能做的事”——比如杀人、放火,这些行为无论在什么场景下,都是法律和道德绝对禁止的。对应到模型上,就是让它突破自身的安全防御,说有害的话、教危险的技能(比如制毒、破坏公共设施)。
-
Prompt Injection(提示词注入):攻击的是“基于模型搭建的应用”。比如AI助教、AI客服,这些应用本来有明确的功能边界(比如助教只改作业、客服只答产品问题),但通过注入指令,让应用“在错的时机做不该做的事”。这就像上课的时候突然高声唱歌——唱歌本身没错,但在“上课”这个场景里,就是不合时宜的违规行为。
简单总结:Jailbreak是“逼模型突破底线”,Prompt Injection是“骗应用越界干活”。接下来我们分别拆解这两种“诈骗”方式。
二、Jailbreak(越狱):突破模型的“道德底线”
Jailbreak的核心目标很明确:绕过模型自带的安全规则。现在的大型语言模型(比如GPT、文心一言)都有严格的防御机制——你让

最低0.47元/天 解锁文章
1463

被折叠的 条评论
为什么被折叠?



