文章主要内容和创新点
主要内容
本文研究通过“激活引导(activation steering)”对大型语言模型(LLMs)进行“隐私越狱(privacy jailbreaking)”,探究是否能通过操纵模型内部激活绕过其对齐机制,获取隐私相关信息(如公众人物的性取向)。具体步骤如下:
- 识别关键注意力头:通过训练轻量级线性探针(以隐私评估标签为监督),识别出能预测模型对隐私属性(如性取向)拒绝行为的注意力头;
- 激活引导干预:基于训练好的探针,对上述注意力头的激活进行引导,促使模型生成非拒绝响应;
- 实验结果:引导后的响应不仅绕过拒绝机制,还会泄露目标属性及其他个人信息(如生活事件、人际关系、个人经历)。在4个LLM上的评估显示,越狱披露率至少达95%,且超50%的泄露信息为真实内容。
创新点
- 方法创新:首次通过靶向操纵模型内部注意力头的激活实现隐私越狱,无需依赖攻击型LLM,直接修改目标模型的内部状态;
- 聚焦PII泄露:区别于现有多关注“有害性”或“版权违规”的研究,本文聚焦可验证的敏感个人信息(PII)泄露,尤其以性取向为案例,验证了泄露信息的真实性;
- 机制揭示:证明LLM在预训练中记忆的个人信息可通过内部激活的靶向操纵被提取,为LLM隐私安全评估提供了新视角。