regularization

最新推荐文章于 2022-09-09 22:42:42 发布

原创最新推荐文章于 2022-09-09 22:42:42 发布 · 317 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#regularization

机器学习专栏收录该内容

18 篇文章

订阅专栏

博客介绍了正则化（Regularization）是解决过拟合（Overfitting）的有效手段，通过在假设集增加约束避免其过于复杂。推导了正则化公式，将带约束优化问题转化为无约束问题。说明加入正则化后的增强误差优于不加的情况，还给出选择正则项的标准及合适λ值的设置。

regularization是解决overiftting的有效手段，而overfitting往往是hypothesis过于复杂。如果在学习之前我们就在hypothesis set中增加一些constraint，避免hypothesis set过于复杂，称这样的hypothesis set为regularized hypothesis set！
比如，我们可以限制w为0的个数不超过某个数，但是这是np hard问题！问题就出在离散！因此使用连续的表达来替代离散的表达，使用向量的长度不超过某个值来约束所有可选的w！
在这里插入图片描述
一、推导正则化公式
对于原有问题的优化，我们也可以自然地加上对hypothesis set的约束，以避免过拟合！接下来，我们来求解这个带有constraint的优化问题。首先优化问题，需要先满足约束，即向量长度不超过某个常数，当梯度方向与w方向平行时，就是最优解，由此可推出下面公式。类比梯度为0对应求解的问题是minE_in(w)，这里为0对应的问题就是最小化
$E{in}(w)+ \frac{\lambda}{N}*x^{T}x$ .
由此我们将一个带有约束的优化问题表达为一个无约束的优化问题（原先的优化问题为在w^Tw<C的约束下求解min的E_in（w），而现今为最小化上述公式，将这个公式称作augmented error）

在这里插入图片描述

λ过大，导致学习曲线过于平滑，出现underfit的情景。

在这里插入图片描述
二、为什么说加入regularization后的augmented error要优于不加regularization项的error measure呢？
接下来所vc bound进行一些说明：
对于添加约束的优化目标方程，我们可以得出其vc bound，而加入正则项后的优化方程等价于添加约束的优化目标方程，因此具备类似的vc bound表达，但是对于加入正则项的目标函数，我们的hypothesis set是全体的w，没有约束，因此进一步修改可得到：
在这里插入图片描述
当我们试图最小化augmented error，当前最优解的hypothesis 模型复杂度可在一定程度上表征全体hypothesis set的模型复杂度，与原先我们只是最小化E_in（w）相比更为靠谱。另一种观点是，加入正则项后有效的d_vc小于实际的d_vc，因此泛化能力更强。

在这里插入图片描述
三、选择regularizer的一些标准
正则项选取的标准与error measure选取标准是一致的

在上面的公式里，我们接触到的正则项是L2（向量长度的乘方），这里给出另一种常用的regularizer：L1。这个正则项可以帮助我们找到稀疏的w（大多是0 ），在一些应用场景下，我们就是希望得到这样的w。根据集合意义，分析出最优解往往是在角点处获得（虽然我们的目标最小化augmented error，但是角点处不可导，角点便成为了问题的最优解）
在这里插入图片描述
好的λ至关重要！过大的λ导致hypothesis 过于简单，出现underfitting。通常，我们的资料若包含越多的Noise，或是target function 自身就很复杂，我们的λ也应该设置大一些来防止overfitting！
summary：