文章核心总结
主要内容
- 提出核心问题:当前大语言模型(LLMs)的安全对齐存在“浅层安全对齐”问题,仅优化输出的前几个tokens(如“我不能”“抱歉”等拒绝前缀),后续tokens的生成分布未被有效约束,导致模型易受多种攻击。
- 验证问题影响:浅层对齐是对抗性后缀攻击、预填充攻击、解码参数攻击、微调攻击等多种漏洞的共同根源,仅修改前几个tokens即可突破安全限制。
- 提出解决方案:一是数据增强方法(生成“安全恢复示例”,训练模型在有害前缀后回归安全拒绝);二是约束优化损失函数(限制微调时前几个tokens的分布偏移,保护安全对齐)。
- 实验验证:两种方案在不显著降低模型效用的前提下,大幅提升了模型对多种攻击的鲁棒性。
创新点
- 首次提出“浅层安全对齐”的统一概念,解释了现有多种LLM安全漏洞的底层共性。
- 设计“深度安全对齐”的实现路径,通过数据增强让安全约束覆盖更多tokens,而非仅局限于前缀。
- 提出token级约束微调目标,针对性保护前几个关键tokens的分布,在支持下游任务微调的同时维持安全对齐。
- 系统验证了浅层对齐的负面影响与深度对齐的有效性,为LLM安全对齐研究提供了新方向。
翻译部分(Markdown格式)
ABSTRACT
当前大型语言模型(LLMs)的安全对

订阅专栏 解锁全文
2685

被折叠的 条评论
为什么被折叠?



