正则

在这里插入图片描述
请问怎么理解让w尽量往0靠近,就相当于减少了网络复杂度?这个网络复杂度怎么考虑的呢,是因为w趋于0的话,相当于不用计算了,或计算量变小了
l1正则啊,可以筛选特征,
L1正则相当于减小模型复杂度,可以防止过拟合在这里插入图片描述
w趋向于零,w的高次变的更加接近零,相当于舍去高非线性,模型趋向线性,可以降低过拟合,
写的是趋于0,结果是产生了不少0,也就是筛选特征了,让参数稀疏,所以可以理解成网络复杂度降低了在这里插入图片描述
1.为啥要保证倒数足够大
2.正则化和上面的介绍有啥关系在这里插入图片描述
保证导数值大
上面的导数值大就是说你的拟合函数波动太大,不稳定,正则化可以使函数系数不那么大,函数波动小一些,更平滑,鲁棒性更强
能否详细讲解下正则化如何通过约束参数的范数使其不要太大,这里是关于L2正则化让w变小,w变小可以防止过拟合的数学解释
在这里插入图片描述
正则化是个引入先验分布或者是添加约束条件,让模型简化,不去拟合数据集的噪音,对应到你那个图里,就是导数小一点,不要去拟合所有的样本
在这里插入图片描述
在这里插入图片描述
对于它原来的损失函数,也就是经验风险,不是越小越好
正则化思想就是没有取原来损失函数最小的w值,而是移了个位置,因为约束条件,也就是加上正则化后w取值必须在菱形框里,单从两个w的角度来看,就是他们的相交点,原来最佳位置是那个圆的圆心
根据kkt条件,因是必要条件,所以可以构造拉格朗日乘数法(也就是我们看到的结构风险),取得最优解时的w也就是有取值范围(比如|w1|+|w2|<c)的w的解
在这里插入图片描述
L1正则化可以使w中一部分变为0,因为相交时其横坐标也就是Wi为0,当高维时也就有更多的Wi为0,相当于使得多项式的次数变小
L2正则化是使得Wi尽可能变小,接近0,因为约束条件,wi都在某个小范围之内。多项式次数未改变,只是使得曲线没有经过所有的点,因为原来的损失函数训练时并没有让它非常接近0,这样也可以避免学习过多的特征在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值