regularization是解决overiftting的有效手段,而overfitting往往是hypothesis过于复杂。如果在学习之前我们就在hypothesis set中增加一些constraint,避免hypothesis set过于复杂,称这样的hypothesis set为regularized hypothesis set!
比如,我们可以限制w为0的个数不超过某个数,但是这是np hard问题!问题就出在离散!因此使用连续的表达来替代离散的表达,使用向量的长度不超过某个值来约束所有可选的w!
一、推导正则化公式
对于原有问题的优化,我们也可以自然地加上对hypothesis set的约束,以避免过拟合!接下来,我们来求解这个带有constraint的优化问题。首先优化问题,需要先满足约束,即向量长度不超过某个常数,当梯度方向与w方向平行时,就是最优解,由此可推出下面公式。类比梯度为0对应求解的问题是minEin(w),这里为0对应的问题就是最小化
.
由此我们将一个带有约束的优化问题表达为一个无约束的优化问题(原先的优化问题为在wTw<C的约束下求解min的Ein(w),而现今为最小化上述公式,将这个公式称作augmented error)
λ过大,导致学习曲线过于平滑,出现underfit的情景。
二、为什么说加入regularization后的augmented error要优于不加regularization项的error measure呢?
接下来所vc bound进行一些说明:
对于添加约束的优化目标方程,我们可以得出其vc bound,而加入正则项后的优化方程等价于添加约束的优化目标方程,因此具备类似的vc bound表达,但是对于加入正则项的目标函数,我们的hypothesis set是全体的w,没有约束,因此进一步修改可得到:
当我们试图最小化augmented error,当前最优解的hypothesis 模型复杂度可在一定程度上表征全体hypothesis set的模型复杂度,与原先我们只是最小化Ein(w)相比更为靠谱。另一种观点是,加入正则项后有效的dvc小于实际的dvc,因此泛化能力更强。
三、选择regularizer的一些标准
正则项选取的标准与error measure选取标准是一致的
在上面的公式里,我们接触到的正则项是L2(向量长度的乘方),这里给出另一种常用的regularizer:L1。这个正则项可以帮助我们找到稀疏的w(大多是0 ),在一些应用场景下,我们就是希望得到这样的w。根据集合意义,分析出最优解往往是在角点处获得(虽然我们的目标最小化augmented error,但是角点处不可导,角点便成为了问题的最优解)
好的λ至关重要!过大的λ导致hypothesis 过于简单,出现underfitting。通常,我们的资料若包含越多的Noise,或是target function 自身就很复杂,我们的λ也应该设置大一些来防止overfitting!
summary: