PROPS: Progressively Private Self-alignment of Large Language Models

PROPS框架提升语言模型隐私对齐

一、文章主要内容总结

1. 研究背景与问题

  • LLM对齐的隐私痛点:大语言模型(LLM)的对齐(如RLHF、DPO)依赖人类反馈的偏好标签,但这些标签会泄露标注者的价值观、身份或专业判断(如医疗场景中医生的诊疗偏好、政策分析中决策者的敏感见解),存在严重隐私风险。
  • 现有方案的缺陷:主流隐私保护方法(如DP-SGD、Randomized Response(RR))存在不足。DP-SGD会对整个训练元组(prompt、response、标签)进行梯度扰动,过度保护导致模型效用下降;RR直接翻转标签,引入大量噪声,尤其在小数据集或高隐私需求场景下,对齐质量严重受损。

2. 核心方案:PROPS框架

  • 定义偏好级隐私:提出(ε, δ)-偏好级差分隐私(Preference-level DP),确保单个偏好标签的改变不会显著影响对齐后模型;同时通过组合定理(如Advanced Composition)扩展到标注者级隐私(Labeler-level DP),保护单个标注者的所有标签。
  • 多阶段自对齐流程:以两阶段为例(可扩展至多阶段):
    1. 第一阶段:将数据集D划分为D₁和D₂,对D₁的标签用RR扰动,通过DPO训练得到中间模型M₁(仅用隐私化标签,无额外隐私泄露)。
    2. 第二阶段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值