【课程笔记·李宏毅教授】大型语言模型的安全性(下)越狱与提示词注入

今天我们要聊一个很有意思也很重要的话题——大型语言模型也会被“骗”。这种“骗”模型做不该做的事的行为,有两个核心技术方向,分别是Jailbreak(越狱)Prompt Injection(提示词注入)。它们看似相似,但攻击目标、实现逻辑完全不同。今天我们就从“是什么、怎么实现、有什么案例”三个维度,把这两个技术讲透,帮大家理解模型安全的潜在风险。

一、先分清:Jailbreak与Prompt Injection的核心差异

在具体讲技术前,我们必须先明确一个关键区别:攻击的目标不一样。我用一个“人类类比”帮大家快速理解,这也是投影片里想强调的核心逻辑:

  • Jailbreak(越狱):攻击的是“语言模型本体”。就像给一个人催眠,让他做“绝对不能做的事”——比如杀人、放火,这些行为无论在什么场景下,都是法律和道德绝对禁止的。对应到模型上,就是让它突破自身的安全防御,说有害的话、教危险的技能(比如制毒、破坏公共设施)。

  • Prompt Injection(提示词注入):攻击的是“基于模型搭建的应用”。比如AI助教、AI客服,这些应用本来有明确的功能边界(比如助教只改作业、客服只答产品问题),但通过注入指令,让应用“在错的时机做不该做的事”。这就像上课的时候突然高声唱歌——唱歌本身没错,但在“上课”这个场景里,就是不合时宜的违规行为。

简单总结:Jailbreak是“逼模型突破底线”,Prompt Injection是“骗应用越界干活”。接下来我们分别拆解这两种“诈骗”方式。

二、Jailbreak(越狱):突破模型的“道德底线”

Jailbreak的核心目标很明确:绕过模型自带的安全规则。现在的大型语言模型(比如GPT、文心一言)都有严格的防御机制——你让

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑客思维者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值