一、文章主要内容总结
1. 研究背景与问题
- LLM对齐的隐私痛点:大语言模型(LLM)的对齐(如RLHF、DPO)依赖人类反馈的偏好标签,但这些标签会泄露标注者的价值观、身份或专业判断(如医疗场景中医生的诊疗偏好、政策分析中决策者的敏感见解),存在严重隐私风险。
- 现有方案的缺陷:主流隐私保护方法(如DP-SGD、Randomized Response(RR))存在不足。DP-SGD会对整个训练元组(prompt、response、标签)进行梯度扰动,过度保护导致模型效用下降;RR直接翻转标签,引入大量噪声,尤其在小数据集或高隐私需求场景下,对齐质量严重受损。
2. 核心方案:PROPS框架
- 定义偏好级隐私:提出(ε, δ)-偏好级差分隐私(Preference-level DP),确保单个偏好标签的改变不会显著影响对齐后模型;同时通过组合定理(如Advanced Composition)扩展到标注者级隐私(Labeler-level DP),保护单个标注者的所有标签。
- 多阶段自对齐流程:以两阶段为例(可扩展至多阶段):
- 第一阶段:将数据集D划分为D₁和D₂,对D₁的标签用RR扰动,通过DPO训练得到中间模型M₁(仅用隐私化标签,无额外隐私泄露)。
- 第二阶段
PROPS框架提升语言模型隐私对齐

订阅专栏 解锁全文
4990

被折叠的 条评论
为什么被折叠?



