PII Jailbreaking in LLMs via Activation Steering Reveals Personal Information Leakage

文章主要内容和创新点

主要内容

本文研究通过“激活引导(activation steering)”对大型语言模型(LLMs)进行“隐私越狱(privacy jailbreaking)”,探究是否能通过操纵模型内部激活绕过其对齐机制,获取隐私相关信息(如公众人物的性取向)。具体步骤如下:

  1. 识别关键注意力头:通过训练轻量级线性探针(以隐私评估标签为监督),识别出能预测模型对隐私属性(如性取向)拒绝行为的注意力头;
  2. 激活引导干预:基于训练好的探针,对上述注意力头的激活进行引导,促使模型生成非拒绝响应;
  3. 实验结果:引导后的响应不仅绕过拒绝机制,还会泄露目标属性及其他个人信息(如生活事件、人际关系、个人经历)。在4个LLM上的评估显示,越狱披露率至少达95%,且超50%的泄露信息为真实内容。
创新点
  1. 方法创新:首次通过靶向操纵模型内部注意力头的激活实现隐私越狱,无需依赖攻击型LLM,直接修改目标模型的内部状态;
  2. 聚焦PII泄露:区别于现有多关注“有害性”或“版权违规”的研究,本文聚焦可验证的敏感个人信息(PII)泄露,尤其以性取向为案例,验证了泄露信息的真实性;
  3. 机制揭示:证明LLM在预训练中记忆的个人信息可通过内部激活的靶向操纵被提取,为LLM隐私安全评估提供了新视角。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值