什么是梯度裁剪

本文介绍了梯度裁剪技术,用于限制梯度值过大,避免模型学习过程中的爆炸问题。同时,它在差分隐私场景中起到保护用户隐私的作用,通过设定阈值并按比例缩放梯度进行模型参数更新。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

梯度裁剪:
实现:确定一个梯度裁剪阈值 c c c,对于计算出的每一个梯度,计算其L2范数(即梯度向量的长度) ∣ ∣ g ∣ ∣ ||g|| ∣∣g∣∣,如果 ∣ ∣ g ∣ ∣ > c ||g|| > c ∣∣g∣∣>c,则将梯度裁剪(缩放)为 g i × c ∣ ∣ g ∣ ∣ g_i × \frac{c}{||g||} gi×∣∣g∣∣c,使用裁剪后的 梯度来更新模型参数:
作用:1. 梯度裁剪的主要目的是防止梯度爆炸问题,即梯度的值变得非常大,导致模型无法正常学习。2. 在差分隐私中,梯度裁剪还有助于限制单个数据点对模型更新的影响,从而提高隐私保护

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值