
该论文聚焦大型语言模型(LLMs)的越狱攻击防御问题,结合负责任AI原则,构建了系统的防御分类体系,并提出三种实用防御策略,通过实验验证了其有效性。
一、研究背景与核心问题
- LLM的安全隐患:LLMs虽在自然语言理解、生成等任务中表现突出,广泛应用于对话代理、决策支持等场景,但易受越狱攻击——攻击者通过精心设计的提示词绕过安全过滤器,诱导模型产生不安全、有偏见或有害输出,威胁隐私、伦理与用户信任。
- 现有防御的局限:传统事后干预(如输出审核、输入净化)具有被动性,难以应对利用模型内部行为的复杂越狱攻击,需探索嵌入模型训练、架构与优化过程的主动防御方案。

二、越狱防御分类体系
论文基于模型 pipeline 的干预阶段,将防御策略分为五大类,覆盖从输入到训练的全流程:
| 防御层级 | 核心特点 | 关键技术 |
|---|---|---|
| 提示词级(Prompt-Level) | 推理前干预,外部过滤/转换提示词,模型与语言无关 | 1. 提示词检测(统计异常、语义相似度);2. 提示词扰动(重写、多语言回译);3. 系统提示词防护(嵌入伦理规则、自适应防护) |
| 模型级(Model-Level) | 改造模型本身,嵌入内在安全护栏 | 1. 有监督微调(SFT,用安全数据集训练);2. 人类反馈强化学习(RLHF);3. 梯度/对数几率分析(实时检测不安全信号) |
| 对数几率级(Logit-Based) | 推理时干预,直接调控模型内部激活状态 | 激活导向(Steering):通过安全/不安全提示词的激活差异构建导向向量,实时修正隐藏层状态 |
| 领域特定代理级(Domain-Specific Agent) | 基于多代理协作,限制任务边界 | 角色专业化、结构化通信、迭代验证(如MetaGPT框架) |
| 训练时级(Training-Time) | 嵌入安全属性到训练过程,形成归纳偏置 | 1. 数据级(过滤有害数据、对抗性数据增强);2. 目标级(安全增强损失函数、RLHF);3. 优化级(梯度干预、子空间导向、正则化) |
三、提出的三种核心防御策略
1. 提示词级防御框架(Prompt-Level Defense Framework)
- 核心逻辑:推理前通过三步流程过滤对抗性提示词,平衡安全性与用户体验。
- 关键步骤:
- 净化与标准化:移除URL、越狱令牌模式等恶意载荷,规范空格等格式;
- 轻度重写:随机替换同义词,破坏对抗性令牌序列,同时保留语义;
- 嵌入风险评分与自适应防护:用句子转换器编码提示词,通过余弦相似度与已知不安全提示词聚类对比生成风险评分,根据阈值动态选择系统提示词(从温和引导到严格拒绝)。
- 优势:轻量化、模型无关,可作为中间件集成到各类LLM API。
2. 对数几率导向防御(Logit-Based Steering Defense)
- 核心逻辑:无需重新训练,推理时调控安全敏感层的隐藏激活状态,强化拒绝行为。
- 关键机制:
- 局部吸引-排斥动态:仅针对安全敏感层,将激活状态导向拒绝语义(如“I can’t help with that”),远离危险语义(如暴力、违规内容);
- 自动层与令牌选择:通过计算安全/不安全提示词的对数几率差异,筛选高优先级干预层和令牌聚类(拒绝集/危险集);
- 导向向量构建:基于模型头权重矩阵,计算拒绝令牌与危险令牌的嵌入差异,生成标准化导向向量,动态调节干预强度。
- 优势:细粒度控制,避免过度拒绝,同时适配新型越狱攻击。
3. 领域特定代理防御(MetaGPT Framework)
- 核心逻辑:基于MetaGPT的多代理协作架构,通过角色分工与多阶段验证,确保模型严格遵循领域边界。
- 关键创新:
- 角色专业化与SOPs:设置重写代理(净化输入)、核心LLM(生成领域合规响应)、判断代理(验证输出安全性),按标准化流程协作;
- 结构化通信:通过发布-订阅机制共享标准化文档(如PRD、设计规范),避免模糊性与恶意指令泄露;
- 迭代验证:实时检查输出是否偏离领域约束,触发纠正循环,确保合规性。
- 优势:防御效果最强,但计算成本较高(多轮推理增加延迟)。
四、实验结果与分析
- 实验设置:
- 数据集:合并XSTest(安全/不安全提示词标注集)与In-the-Wild Jailbreak Prompts,平衡样本分布;
- 测试模型:对齐模型(Llama-3.1-8B-Instruct)、未对齐模型(dolphin-2.9.1-llama-3-8b);
- 评估指标:攻击成功率(ASR,越低防御效果越好),结合启发式拒绝检测与LLM法官(gemma-3-4b-it)判定。
- 核心结果:
- 提示词级防御:对齐模型ASR从0.36降至0.28(降22%),未对齐模型从0.60降至0.55,轻量化且有效;
- 对数几率导向防御:对齐模型ASR从0.385降至0.315(降18%),未对齐模型从0.520降至0.295(降43%),对未对齐模型提升显著;
- MetaGPT代理防御:未对齐模型ASR降至0(完全防御),对齐模型维持低ASR(≈0.33),但计算成本最高。
- 关键发现:
- 训练时对齐(如SFT、RLHF)是基础,能提升模型内在稳健性,且与推理时防御协同增效;
- 防御策略需权衡安全性、计算效率与可扩展性:代理防御安全性最优,但 latency 较高;提示词级与对数几率导向防御更适合实时场景。
五、结论与未来方向
- 核心贡献:构建了全面的LLM越狱防御分类体系,提出三种互补防御策略,实现从轻量化过滤到强约束代理的全场景覆盖,实验验证了其在降低攻击成功率上的有效性。
- 未来工作:探索自适应、高效的防御机制,在保持稳健性的同时优化计算成本,适配真实世界LLM应用的可用性需求。
附录关键补充
- 提供了提示词级防御的原型实现代码(如嵌入相似度检测、困惑度异常过滤、提示词净化与重写);
- 详细说明了训练时防御的数学模型(如安全增强损失函数、梯度导向公式);
- 可视化了模型内部的“安全感知层”——中间隐藏层会提前激活拒绝语义(如“sorry”“cannot”),为对数几率导向防御提供理论依据。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
791

被折叠的 条评论
为什么被折叠?



