大规模深度学习中的差分隐私技术突破

差分隐私在大规模深度学习中的应用

深度学习模型依赖数据驱动,而训练数据可能包含需要隐私保护的敏感信息。差分隐私(DP)是一种正式框架,可确保数据集中个体的隐私,使攻击者无法判断特定数据样本是否用于训练机器学习模型。在深度学习中应用DP通常需要限制每个训练样本对模型参数调整的贡献度,即逐样本梯度剪裁方法。

然而,逐样本梯度剪裁会显著增加深度学习的时间成本,阻碍了大规模DP模型(如具有数十亿参数的GPT语言模型)的发展。在2022年国际机器学习大会(ICML)和神经信息处理系统大会(NeurIPS)的研讨会上,我们发表了两篇推动深度学习差分隐私发展的论文。

自动剪裁技术

在论文《自动剪裁:使差分隐私深度学习更简单、更强大》中,我们提出了一种自动方法,将梯度剪裁过程的调优效率提升了一个数量级(约5-10倍)。传统梯度剪裁需要进行昂贵的消融实验来选择剪裁阈值,而我们的方法采用归一化技术,完全消除了剪裁阈值的调优需求。

技术原理

深度学习过程包含一个可调超参数——学习率,它决定模型权重在更新时的变化程度。逐样本梯度剪裁阈值类似,但是以逐样本为基础施加限制。现有DP训练方法需要同时调优剪裁阈值和学习率,若评估K个不同剪裁阈值,会使模型超参数调优阶段成本增加K倍。

自动剪裁通过梯度归一化替代逐样本梯度剪裁,实现了三大改进:

  1. 消除剪裁阈值调优
  2. 放大未被剪裁的小梯度
  3. 经证明可优化性能

实验表明,自动剪裁在多个计算机视觉和语言任务中能达到最先进的DP精度,且不牺牲训练效率或隐私保障。

差分隐私偏置项微调(DP-BiTFiT)

在获得NeurIPS可信赖和负责任机器学习研讨会最佳论文奖的论文中,我们提出了BiTFiT方法,这是一种参数高效的DP学习微调方法。

核心优势
  1. 模型无关性:通过冻结所有权重、仅更新偏置项,可应用于任何模型
  2. 参数高效性:偏置项仅占模型参数的约0.1%,大幅提升训练速度、内存使用和分布式学习通信效率
  3. 计算优势:相比DP-LoRA等方法,不需要存储和访问昂贵的激活张量
实证结果

在GPT-2-large、ResNet 152等大型基础模型上,DP-BiTFiT在保持最先进精度的同时,实现了4-10倍的速度提升和2-10倍的内存节省。特别是在GPT-2模型上,DP-BiTFiT使差分隐私微调达到了与标准GPT-2参数高效微调相当的效率水平。

技术影响

这两项技术已公开提供,鼓励研究人员体验并受益于更快速的差分隐私深度学习。自动剪裁解决了超参数调优的瓶颈,而DP-BiTFiT则通过参数高效微调为大规模DP模型的实际部署铺平了道路。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值