线性回归正则化

最新推荐文章于 2025-03-11 11:28:52 发布

ALWAYS_FANG

最新推荐文章于 2025-03-11 11:28:52 发布

阅读量3.5k

点赞数 3

分类专栏：机器学习文章标签：线性回归正则化原理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38120760/article/details/82320413

版权

机器学习专栏收录该内容

24 篇文章

订阅专栏

我做了一个导航站（域名是挂路灯的全拼gualudeng.com)，里面精选了各种影视，动漫，黑科技，实用工具，搞笑有趣的站点，动动大家可爱的小手，点进来看看吧,良心站点。

前面我们对线性回归已经有了一个基本认识，接下来我们探讨正则化。

首先对于只有一个特征的n个样本。 $(x_1,y_1),(x_2,y_2).......(x_n,y_n)$ 。我们用直线去拟合效果如下。

发现拟合效果不好。

如果我们用二次曲线去拟合发现效果很好

这里有一个问题，我们明明做的是线性回归这里怎么是曲线？其实很简单,在这里我们只是把一个特征变成了两个特征 $(x,x^2,y)$ 。把低维映射到了高维就是线性的。（但是这里的特征并不是独立的）。

下面我们看看更高维的情况

发现出现了过拟合的现象。这也就引出了一个问题，我们该怎么控制这个维度呢？也就是特征的个数呢。对于这个问题其实我们只需要 $x;x^2$ 这两个特征，而 $x^3;x^4$ 是不需要的。那么我们如何解决？如果我们尽可能的降低 $x^3;x^4$ 的权重，也就是让其系数 $\theta _3;\theta _4$ 尽可能的小。最好趋近于零。这样不就解决了吗。

接下来我们尝试这样去做。我们在线性回归的损失函数后面加一个惩罚项。 $\lambda \sum_{j=1}^{n}\theta _j^2$ 如下

$L(\theta ) = \sum_{i=1}^{n}(h_\theta (x_i)-y_i)^2+\lambda \sum_{j=1}^{n}\theta _j^2$ 我们来探讨一下这个式子为什么会降低 $x^3;x^4$ 的权重，但是对 $x;x^2$ 的权重影响不大。

先看一个例子（来自https://blog.youkuaiyun.com/u012328159/article/details/51089365）

对于这种多项式特征，随着阶数的增加，其对应的系数也会变得非常大。所以对于 $L(\theta ) = \sum_{i=1}^{n}(h_\theta (x_i)-y_i)^2+\lambda \sum_{j=1}^{n}\theta _j^2$ 我们如果要求他的最小值，那 $\lambda \sum_{j=1}^{n}\theta _j^2$ 惩罚项必定会让系数大的 $\theta$ 变小。可想而知系数很大的特征，一般都是不正常的特征。所以惩罚项就会让其系数变小。相应的系数小的特征的变化就会很小。

这就是正则化的作用。

正则化函数的解法和线性回归解法一样直接求导为零即可

最后的结果为 $W = (XX^{T}+\lambda I)^{-1}XY^{T}$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。