本文是LLM系列文章,针对《Privacy-Preserving Instructions for Aligning Large Language Models》的翻译。
摘要
大型语言模型(LLM)应用程序的服务提供商在野外收集用户指令,并使用它们进一步使LLM与用户的意图保持一致。这些指令可能包含敏感信息,在这个过程中由人工注释。这带来了典型的私有优化无法解决的新的隐私风险。为此,我们建议在数据注释和模型微调中使用合成指令来代替真实指令。通过使用私人微调生成器生成这些合成指令来保证形式差分隐私。实现所需效用的关键是我们的新过滤算法,该算法将合成指令的分布与真实指令的分布相匹配。在有监督的微调和来自人类反馈的强化学习中,我们的大量实验通过显示与真实指令可比的结果,证明了最终合成指令集的高实用性。在监督微调中,使用私人合成指令训练的模型优于领先的开源模型,如Vicuna。
1 引言
2 隐私风险与背景
3 生成具有差分隐私的合成指令
4 实验
5 结论
对于在指令上微调LLM的常见做法,我们在用户提供的指令上确定了一个新的威胁模型:将指令中的敏感个人信息暴露给人类注释者的潜在风险。为了解决这一问题,以及防止微调LLM记忆用户指令中的敏感信息,我们建议用DP合成指令取代用户指令,并引入一种新的框架,通过使用DP直方图对合成指令进行重新采样,以匹配嵌入空间中真实数据集的分布,来生成高质量指令。我们的框架的有效性通过在公开的Chatbot Arena数据集以及LLaMA和Phi-1.5模型上的综合实验得到了验证。未来的重要方向包括开发能够从包括图像和语音在内的多种模式的用户指令中私下学习
使用差分隐私保护的大规模语言模型指令对齐

本文探讨了大型语言模型(LLM)在处理用户指令时的隐私风险,提出了一种生成具有差分隐私的合成指令的方法,以替代真实指令,保护用户隐私。实验表明,这种方法在保持模型性能的同时,有效地减少了敏感信息的暴露。
已下架不支持订阅

被折叠的 条评论
为什么被折叠?



