机器学习笔记-02-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_46081986/article/details/137400963

本文介绍了多元线性回归的基本概念，重点讨论了梯度下降算法在多变量情况下的应用，涉及特征缩放对算法效率的影响，以及正规方程作为求解最优解的方法。同时，对比了梯度下降和正规方程的优缺点，特别是在大数据量场景下的选择建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多变量的线性回归

多元线性回归：当假设函数有n个自变量时，令 $x_0=1$ ，θ和x为 $θ_0,θ_1,θ_2,...,θ_n）$ 和 $x_0,x_1,x_2,...,x_n）$ 两个n+1维向量，则假设函数即可简化如下图所示

之所以要加上一个 $x_0$ =1是为了让θ的转置和x两个向量可以相乘从而达到简写的目的。

一、多元梯度下降算法：

上次学习的梯度下降算法
在这里插入图片描述
当令多元梯度下降算法的n=2时：

由此可以看出，其实本质上是没有区别的，梯度下降算法不过就是多元梯度下降算法的n=1时的一个特例。

特征缩放：
一个问题有多个特征即变量时，如果可以确保这些特征都处在一个相近的范围，也就是说可以确保不同的变量都在一个区间内，这样梯度下降算法就可以快速收敛。为了达到这个目的，可以使不符合条件的变量整体除以一个数（可以是最大值也可以是别的，只要最后让此变量符合条件即可）：
在这里插入图片描述

也可以均值归一化进行特征缩放：

均值归一化
其中1000是size样本中的平均值，2000是size样本中的最大值-最小值；2是bedrooms样本中的平均值，5是bedrooms样本中的最大值-最小值。

特征缩放其实不需要太精确，只要让梯度下降更快即可。

区间只要接近（-1，1）即可，不能太小也不能太大。（0，3）可以，（-2，2）可以，（-100，100）不可以，（-0.0001，0.0001）不可以。不需要所有的变量都在一个区间只要相近就可以。比如 $x_1$ 处于（0，3）， $x_2$ 处于（-3，3）， $x_3$ 处于（-0.5，0.5），这一组也是可以的。只要是接近的不差太远就行。