机器学习中的正则化

newstrongers

于 2017-06-14 22:20:56 发布

阅读量717

点赞数

分类专栏：数据挖掘文章标签：机器学习正则化过拟合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/newstrongers/article/details/73252922

版权

数据挖掘专栏收录该内容

2 篇文章

订阅专栏

机器学习中的正则化

正则化（regularization）是机器学习中进行模型选择的典型方法。正则化是模型损失函数结构风险最小化策略的实现，是在经验风险上加一个正则化项（regularized item）或罚项（penalty term）。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。
正则化项一般具有如下形式：

min f \in F 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$\mathop {\min }\limits_{f \in {\mathop{\rm F}\nolimits} } \;\frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i})) + \lambda J(f)}$
其中第一项是经验风险，第二项是正则化项，

λ≥0 $\lambda \ge 0$ 为调整两者之间关系的系数。

正则化项可以取不同的形式，例如，在回归问题中，损失函数是平方损失，正则化项可以是参数向量的 $L_2$ 范数：

L (w) = 1 N \sum i = 1 N (f (x i; w) - y i) + λ 2 ∥ w ∥ 2

$L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {(f({x_i};w) - {y_i}) + \frac{\lambda }{2}} {\left\| w \right\|^2}$
其中，

∥w∥2 $\left\| w \right\|^2$ 表示w的

L2 $L_2$ 范数。
正则化项也可以是参数向量的

L1 $L_1$ 范数：

L (w) = 1 N \sum i = 1 N (f (x i; w) - y i) + λ ∥ w ∥ 1

$L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {(f({x_i};w) - {y_i}) + {\lambda }} {\left\| w \right\|_1}$
其中

∥w∥1 ${\left\| w \right\|_1}$ 表示参数向量的

L1 $L_1$ 范数。
第一项的经验风险较小的模型可能较复杂（有多个非零参数），这时第二项的模型复杂度会较大。正则化的作用是选择经验风险和模型复杂度同时较小的模型。

正则化符合奥卡姆剃刀（Occam’s razor）原理。也就是说，在所有可供选择的模型中，能够很好地解释已有数据并且十分简单才是最好的模型，也就是应该选择的模型。从贝叶斯估计的角度来看，正则化项对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

根据以上解释，经过正则化方法选择出的模型，同时也减少了过拟合的可能性。

Reference:

[1]: 李航，统计学习方法，2012.3

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。