机器学习中的正则化
正则化(regularization)是机器学习中进行模型选择的典型方法。正则化是模型损失函数结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularized item)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。
正则化项一般具有如下形式:
minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)
其中第一项是经验风险,第二项是正则化项, λ≥0 为调整两者之间关系的系数。
正则化项可以取不同的形式,例如,在回归问题中,损失函数是平方损失,正则化项可以是参数向量的
L2
范数:
L(w)=1N∑i=1N(f(xi;w)−yi)+λ2∥w∥2
其中, ∥w∥2 表示w的 L2 范数。
正则化项也可以是参数向量的 L1 范数:
L(w)=1N∑i=1N(f(xi;w)−yi)+λ∥w∥1
其中 ∥w∥1 表示参数向量的 L1 范数。
第一项的经验风险较小的模型可能较复杂(有多个非零参数),这时第二项的模型复杂度会较大。正则化的作用是选择经验风险和模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀(Occam’s razor)原理。也就是说,在所有可供选择的模型中,能够很好地解释已有数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
根据以上解释,经过正则化方法选择出的模型,同时也减少了过拟合的可能性。
Reference:
[1]: 李航,统计学习方法 ,2012.3