机器学习_线性回归，梯度下降算法与正规方程

最新推荐文章于 2021-08-13 12:50:33 发布

原创最新推荐文章于 2021-08-13 12:50:33 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了线性回归的基本概念及应用实例，并通过最小二乘法定义了成本函数。进一步探讨了如何利用梯度下降算法寻找成本函数的最小值，包括参数更新规则和学习率的选择。此外还对比了正规方程法与梯度下降法的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人对这方面的理解，文字纯手打，图片来自于coursera的课件
1.线性回归的定义：给出若干的训练集(训练集中 $x_i^{(j)}$ 表示样本j中第i个项)，然后拟合为一条直线，使得cost最小
不妨先看一个例子，拿课程中的例子，卖房
现在已经知道了若干的房子的大小以及卖出去的价格，现在跟着这些信息，来推断一些房子的价格

我们的任务，就是把图中的点尽可能为拟合成一条”花费最小”的直线 $h(x)=\theta_0+\theta_1x$
2.”花费”怎么定义呢？使用的是最小二乘法
$J(\theta_1,\theta_2)=\frac{1}{2m}\sum_{i=1}^{m}({h(x^{(i)})-y^{(i)}})^2$
简单点儿说，就是所有的点到直线上x值相等的点的距离的平方，求平均，就是对应的花费
3.花费的最小怎么求呢，可以想到，这个函数肯定是连续的，那么就可以通过求偏倒解决
这里写图片描述
这就是梯度下降算法

对于例子，迭代方法如下
$\theta_0=\theta_0-\alpha*\frac{1}{m}\sum_{i=1}^{m}{(h(x^{(i)})-y^{(i)})}$
$\theta_1=\theta_1-\alpha*\frac{1}{m}\sum_{i=1}^{m}{(h(x^{(i)})-y^{(i)})*x^{(i)}}$
$\alpha$ 被称为learning rate，需要被选择为一个合适的值，如果太大的话，可能会越过最佳的值，然后越变越大，如果太小的话，需要迭代的次数太多
通常的做法就是，先任取一个 $\theta_0 \theta_1$ 然后通过多次的迭代，就可以找到一个局部最小值，可以取多组初始的 $\theta_0 \theta_1$ ，然后找到其中最好的解，那么有一个很有意思的问题，怎么确定，找到的解肯定就是全局最好的呢
还有一个问题，就是更新时候必须得同步更新，简单点儿说，就是计算出的新的 $\theta_i$ ，先保存起来，待这一次所有的 $\theta_j$ 都计算完后，再同时更新所有的 $\theta_i$

4.接下来考虑多feature的情况，首先梯度下降算法是肯定成立的

如果x1与x2相差很多，但 $\alpha$ 是固定的，那么可能会出现 $\theta_1$ 在最优值附近摆动很大，而 $\theta_2$ 却迭代的很慢，这种情况下，通常会对数据做一个初步的处理，先转换为-1~1之间的数，处理方式如下
这种方法也会加快寻到最优的速度

5.最后介绍一个更强大Normal Equation(正规方程)，直接用矩阵运算就可以得到最优解(证明还没有看)

$\theta=(X^T\cdot X)^{(-1)}\cdot X^T\cdot Y$ ，其中 $X$ 是一个矩阵，每一行都是1+各特征值， $Y$ 就是所有的结果值，来分析一下，是m*(n+1)的矩阵，所以复杂度就是O(n^3)
很强大！但也有弊端，那就是比较慢，如果n=100 0000，那将慢到不可忍受，所以还得用梯度下降算法，但如果处理1000内的数据，将十分的方便

先说这么多，想到接着补充