本文是LLM系列文章,针对《Privacy-Preserving Instructions for Aligning Large Language Models》的翻译。
摘要
大型语言模型(LLM)应用程序的服务提供商在野外收集用户指令,并使用它们进一步使LLM与用户的意图保持一致。这些指令可能包含敏感信息,在这个过程中由人工注释。这带来了典型的私有优化无法解决的新的隐私风险。为此,我们建议在数据注释和模型微调中使用合成指令来代替真实指令。通过使用私人微调生成器生成这些合成指令来保证形式差分隐私。实现所需效用的关键是我们的新过滤算法,该算法将合成指令的分布与真实指令的分布相匹配。在有监督的微调和来自人类反馈的强化学习中,我们的大量实验通过显示与真实指令可比的结果,证明了最终合成指令集的高实用性。在监督微调中,使用私人合成指令训练的模型优于领先的开源模型,如Vicuna。
1 引言
2 隐私风险与背景
3 生成具有差分隐私的合成指令
4 实验
5 结论
对于在指令上微调LLM的常见做法,我们在用户提供的指令上确定了一个新的威胁模型:将指令中的敏感个人信息暴露给人类注释者的潜在风险。为了解决这一问题