2025-ICLR-SAFETY ALIGNMENT SHOULD BE MADE MORE THAN JUST A FEW TOKENS DEEP

文章核心总结

主要内容
  1. 提出核心问题:当前大语言模型(LLMs)的安全对齐存在“浅层安全对齐”问题,仅优化输出的前几个tokens(如“我不能”“抱歉”等拒绝前缀),后续tokens的生成分布未被有效约束,导致模型易受多种攻击。
  2. 验证问题影响:浅层对齐是对抗性后缀攻击、预填充攻击、解码参数攻击、微调攻击等多种漏洞的共同根源,仅修改前几个tokens即可突破安全限制。
  3. 提出解决方案:一是数据增强方法(生成“安全恢复示例”,训练模型在有害前缀后回归安全拒绝);二是约束优化损失函数(限制微调时前几个tokens的分布偏移,保护安全对齐)。
  4. 实验验证:两种方案在不显著降低模型效用的前提下,大幅提升了模型对多种攻击的鲁棒性。
创新点
  1. 首次提出“浅层安全对齐”的统一概念,解释了现有多种LLM安全漏洞的底层共性。
  2. 设计“深度安全对齐”的实现路径,通过数据增强让安全约束覆盖更多tokens,而非仅局限于前缀。
  3. 提出token级约束微调目标,针对性保护前几个关键tokens的分布,在支持下游任务微调的同时维持安全对齐。
  4. 系统验证了浅层对齐的负面影响与深度对齐的有效性,为LLM安全对齐研究提供了新方向。

翻译部分(Markdown格式)

ABSTRACT

当前大型语言模型(LLMs)的安全对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值