本文重点
正则化包含L1正则化和L2正则化,本文将介绍一下这两个正则化有什么不同?
正则化
L1正则化
L1正则化目的是减少参数的绝对值总和,定义为:

L2正则化
L2正则化的目的是减少参数平方的总和,定义为:

二者的区别?
1、L1正则化会使得某一维的权重为0,产生稀疏权重矩阵。L2正则化的最优的参数值很小概率会出现在坐标轴上,因此每一维的参数都不会是0。
2、L1正则化假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。L2正则化假设权重w的先验分布为高斯分布,由最大后验概率估计导出。
本文介绍了L1正则化和L2正则化的概念及其区别。L1正则化产生稀疏权重矩阵,常与拉普拉斯分布相关,而L2正则化假设权重分布为高斯分布,导致参数值较小但不为零。正则化通过最大后验概率估计,结合先验分布来优化模型参数。
订阅专栏 解锁全文
961

被折叠的 条评论
为什么被折叠?



