公式
L1

L2

L1
令 x = fx - y
有Lx = |x|
求导数:

我们知道梯度更新方法为:


这样会有一个问题就是 为0 的时候不可导,另外当梯度很小时,很难收敛到极小值
优点: 前期收敛快,梯度不变,不容易收脏数据的影响,
缺点: 后期无法收敛,只能调学习率的方式,更新太快可能无法取到极小值
L2

令
,忽略求和及系数,则有L1(x)=x^2,其导数为

所以, l2 中, 预测和真实值的差值越大, 损失越大。
优点: 差值越大, 导数越大,反之, 容易收敛到极小值
缺点: 容易受到离群点,脏数据的影响,一开始梯度太大,容易出现训练不稳定, 梯度爆炸

Smooth l1
这是一个分段函数

是l2 和l1 的结合体, 在梯度较小时,采用l2 较为平滑的方式, 较大时采用稳定的梯度下降。


文章探讨了L1、L2以及SmoothL1三种损失函数的性质。L1损失函数在数据异常时较稳定,但可能在后期无法收敛;L2损失函数对离群点敏感,可能导致训练不稳;SmoothL1则是两者的折衷,结合了L1的稳定性与L2的平滑性。
1万+

被折叠的 条评论
为什么被折叠?



