差分隐私在大规模深度学习中的应用
深度学习模型依赖数据驱动,而训练数据可能包含需要隐私保护的敏感信息。差分隐私(DP)是一种正式框架,可确保数据集中个体的隐私,使攻击者无法判断特定数据样本是否用于训练机器学习模型。在深度学习中应用DP通常需要限制每个训练样本对模型参数调整的贡献度,即逐样本梯度剪裁方法。
然而,逐样本梯度剪裁会显著增加深度学习的时间成本,阻碍了大规模DP模型(如具有数十亿参数的GPT语言模型)的发展。在2022年国际机器学习大会(ICML)和神经信息处理系统大会(NeurIPS)的研讨会上,我们发表了两篇推动深度学习差分隐私发展的论文。
自动剪裁技术
在论文《自动剪裁:使差分隐私深度学习更简单、更强大》中,我们提出了一种自动方法,将梯度剪裁过程的调优效率提升了一个数量级(约5-10倍)。传统梯度剪裁需要进行昂贵的消融实验来选择剪裁阈值,而我们的方法采用归一化技术,完全消除了剪裁阈值的调优需求。
技术原理
深度学习过程包含一个可调超参数——学习率,它决定模型权重在更新时的变化程度。逐样本梯度剪裁阈值类似,但是以逐样本为基础施加限制。现有DP训练方法需要同时调优剪裁阈值和学习率,若评估K个不同剪裁阈值,会使模型超参数调优阶段成本增加K倍。
自动剪裁通过梯度归一化替代逐样本梯度剪裁,实现了三大改进:
- 消除剪裁阈值调优
- 放大未被剪裁的小梯度
- 经证明可优化性能
实验表明,自动剪裁在多个计算机视觉和语言任务中能达到最先进的DP精度,且不牺牲训练效率或隐私保障。
差分隐私偏置项微调(DP-BiTFiT)
在获得NeurIPS可信赖和负责任机器学习研讨会最佳论文奖的论文中,我们提出了BiTFiT方法,这是一种参数高效的DP学习微调方法。
核心优势
- 模型无关性:通过冻结所有权重、仅更新偏置项,可应用于任何模型
- 参数高效性:偏置项仅占模型参数的约0.1%,大幅提升训练速度、内存使用和分布式学习通信效率
- 计算优势:相比DP-LoRA等方法,不需要存储和访问昂贵的激活张量
实证结果
在GPT-2-large、ResNet 152等大型基础模型上,DP-BiTFiT在保持最先进精度的同时,实现了4-10倍的速度提升和2-10倍的内存节省。特别是在GPT-2模型上,DP-BiTFiT使差分隐私微调达到了与标准GPT-2参数高效微调相当的效率水平。
技术影响
这两项技术已公开提供,鼓励研究人员体验并受益于更快速的差分隐私深度学习。自动剪裁解决了超参数调优的瓶颈,而DP-BiTFiT则通过参数高效微调为大规模DP模型的实际部署铺平了道路。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


被折叠的 条评论
为什么被折叠?



