大规模深度学习中的差分隐私技术突破-优快云博客

差分隐私在大规模深度学习中的应用

深度学习模型依赖数据驱动，而训练数据可能包含需要隐私保护的敏感信息。差分隐私（DP）是一种正式框架，可确保数据集中个体的隐私，使攻击者无法判断特定数据样本是否用于训练机器学习模型。在深度学习中应用DP通常需要限制每个训练样本对模型参数调整的贡献度，即逐样本梯度剪裁方法。

然而，逐样本梯度剪裁会显著增加深度学习的时间成本，阻碍了大规模DP模型（如具有数十亿参数的GPT语言模型）的发展。在2022年国际机器学习大会（ICML）和神经信息处理系统大会（NeurIPS）的研讨会上，我们发表了两篇推动深度学习差分隐私发展的论文。

自动剪裁技术

在论文《自动剪裁：使差分隐私深度学习更简单、更强大》中，我们提出了一种自动方法，将梯度剪裁过程的调优效率提升了一个数量级（约5-10倍）。传统梯度剪裁需要进行昂贵的消融实验来选择剪裁阈值，而我们的方法采用归一化技术，完全消除了剪裁阈值的调优需求。

技术原理

深度学习过程包含一个可调超参数——学习率，它决定模型权重在更新时的变化程度。逐样本梯度剪裁阈值类似，但是以逐样本为基础施加限制。现有DP训练方法需要同时调优剪裁阈值和学习率，若评估K个不同剪裁阈值，会使模型超参数调优阶段成本增加K倍。

自动剪裁通过梯度归一化替代逐样本梯度剪裁，实现了三大改进：

消除剪裁阈值调优
放大未被剪裁的小梯度
经证明可优化性能

实验表明，自动剪裁在多个计算机视觉和语言任务中能达到最先进的DP精度，且不牺牲训练效率或隐私保障。

差分隐私偏置项微调（DP-BiTFiT）

在获得NeurIPS可信赖和负责任机器学习研讨会最佳论文奖的论文中，我们提出了BiTFiT方法，这是一种参数高效的DP学习微调方法。

核心优势

模型无关性：通过冻结所有权重、仅更新偏置项，可应用于任何模型
参数高效性：偏置项仅占模型参数的约0.1%，大幅提升训练速度、内存使用和分布式学习通信效率
计算优势：相比DP-LoRA等方法，不需要存储和访问昂贵的激活张量

实证结果

在GPT-2-large、ResNet 152等大型基础模型上，DP-BiTFiT在保持最先进精度的同时，实现了4-10倍的速度提升和2-10倍的内存节省。特别是在GPT-2模型上，DP-BiTFiT使差分隐私微调达到了与标准GPT-2参数高效微调相当的效率水平。

技术影响

这两项技术已公开提供，鼓励研究人员体验并受益于更快速的差分隐私深度学习。自动剪裁解决了超参数调优的瓶颈，而DP-BiTFiT则通过参数高效微调为大规模DP模型的实际部署铺平了道路。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传