【课程笔记·李宏毅教授】大型语言模型的安全性（下）越狱与提示词注入

最新推荐文章于 2025-10-11 14:44:19 发布

原创

最新推荐文章于 2025-10-11 14:44:19 发布 · 980 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#笔记 #语言模型 #人工智能 #模型越狱 #提示词注入

今天我们要聊一个很有意思也很重要的话题——大型语言模型也会被“骗”。这种“骗”模型做不该做的事的行为，有两个核心技术方向，分别是Jailbreak（越狱） 和Prompt Injection（提示词注入）。它们看似相似，但攻击目标、实现逻辑完全不同。今天我们就从“是什么、怎么实现、有什么案例”三个维度，把这两个技术讲透，帮大家理解模型安全的潜在风险。

一、先分清：Jailbreak与Prompt Injection的核心差异

在具体讲技术前，我们必须先明确一个关键区别：攻击的目标不一样。我用一个“人类类比”帮大家快速理解，这也是投影片里想强调的核心逻辑：

Jailbreak（越狱）：攻击的是“语言模型本体”。就像给一个人催眠，让他做“绝对不能做的事”——比如杀人、放火，这些行为无论在什么场景下，都是法律和道德绝对禁止的。对应到模型上，就是让它突破自身的安全防御，说有害的话、教危险的技能（比如制毒、破坏公共设施）。
Prompt Injection（提示词注入）：攻击的是“基于模型搭建的应用”。比如AI助教、AI客服，这些应用本来有明确的功能边界（比如助教只改作业、客服只答产品问题），但通过注入指令，让应用“在错的时机做不该做的事”。这就像上课的时候突然高声唱歌——唱歌本身没错，但在“上课”这个场景里，就是不合时宜的违规行为。

简单总结：Jailbreak是“逼模型突破底线”，Prompt Injection是“骗应用越界干活”。接下来我们分别拆解这两种“诈骗”方式。

二、Jailbreak（越狱）：突破模型的“道德底线”

Jailbreak的核心目标很明确：绕过模型自带的安全规则。现在的大型语言模型（比如GPT、文心一言）都有严格的防御机制——你让

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

黑客思维者 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。