吴恩达机器学习笔记复盘（七）多元线性回归模型

wgc2k

已于 2025-03-19 21:37:47 修改

阅读量572

点赞数 17

分类专栏： # 机器学习文章标签：机器学习笔记线性回归

于 2025-03-18 14:55:41 首次发布

本文链接：https://blog.youkuaiyun.com/wgc2k/article/details/146340892

版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

之前4-6的笔记仅复习了单变量线性模型，从这一篇开始复习多变量的模型。

多参数线性回归模型是一种用于分析多个自变量与一个因变量之间线性关系的统计模型。

模型定义

假设我们有 $n$ 个观测数据点 $(x_{i1}, x_{i2}, \cdots, x_{ip}, y_i)$ ，其中 $i = 1, 2, \cdots, n$ ， $x_{ij}$ 表示第 $i$ 个观测值的第 $j$ 个自变量， $y_i$ 表示第 $i$ 个观测值的因变量。多参数线性回归模型的一般形式为： $y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i$ 其中， $\beta_0, \beta_1, \cdots, \beta_p$ 是待估计的参数， $\beta_0$ 称为截距项， $\beta_j$ $(j = 1, 2, \cdots, p)$ 称为回归系数， $\epsilon_i$ 是随机误差项，通常假定 $\epsilon_i$ 独立同分布，且服从均值为 $0$ ，方差为 $\sigma^2$ 的正态分布，即 $\epsilon_i \sim N(0, \sigma^2)$ 。

参数估计

这部分写的比较笼统，后面的笔记会进一步解释梯度算法

通常采用最小二乘法来估计模型中的参数。最小二乘法的目标是找到一组参数估计值 $\hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_p$ ，使得观测值 $y_i$ 与预测值 $\hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_{i1}+\hat{\beta}_2x_{i2}+\cdots+\hat{\beta}_px_{ip}$ 之间的误差平方和最小。误差平方和 $Q$ 可以表示为： $Q=\sum_{i = 1}^{n}(y_i-\hat{y}_i)^2=\sum_{i = 1}^{n}(y_i - \beta_0-\beta_1x_{i1}-\beta_2x_{i2}-\cdots-\beta_px_{ip})^2$ 为了找到使 $Q$ 最小的参数估计值，对 $Q$ 分别关于 $\beta_0, \beta_1, \cdots, \beta_p$ 求偏导数，并令偏导数等于 $0$ ，得到以下正规方程组： $\begin{cases}\frac{\partial Q}{\partial\beta_0}=-2\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}) = 0\\\frac{\partial Q}{\partial\beta_1}=-2\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})x_{i1}= 0\\\cdots\\\frac{\partial Q}{\partial\beta_p}=-2\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})x_{ip}= 0\end{cases}$ 解这个正规方程组，就可以得到参数的最小二乘估计值 $\hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_p$ 。

模型检验

拟合优度检验

常用的指标是判定系数 $R^2$ ，它表示回归平方和占总离差平方和的比例，计算公式为： $R^2=\frac{\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})^2}{\sum_{i = 1}^{n}(y_i-\bar{y})^2}$ 其中， $\bar{y}=\frac{1}{n}\sum_{i = 1}^{n}y_i$ 是 $y_i$ 的均值。 $R^2$ 的取值范围在 0-1之间， $R^2$ 越接近 1，说明模型对数据的拟合程度越好。

变量的显著性检验

对于每个回归系数 $\beta_j$ ，需要检验其是否显著不为 0。通常采用 $t$ 检验，检验统计量为： $t_j=\frac{\hat{\beta}_j}{s.e.(\hat{\beta}_j)}$ 其中， $s.e.(\hat{\beta}_j)$ 是 $\hat{\beta}_j$ 的标准误差。在原假设 $H_0:\beta_j = 0$ 下， $t_j$ 服从自由度为 $n - p - 1$ 的 $t$ 分布。通过计算 $t_j$ 的值，并与给定的显著性水平下的临界值进行比较，来判断是否拒绝原假设，从而确定变量 $x_j$ 对因变量 $y$ 的影响是否显著。

模型的显著性检验

采用 $F$ 检验来检验整个回归模型的显著性。检验统计量为：

$F = \frac{\frac{\sum_{i = 1}^{n}(\hat{y}_i - \bar{y})^2}{p}}{\frac{\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}{n - p - 1}}$

在原假设 $H_0:\beta_1=\beta_2=\cdots=\beta_p = 0$ 下， $F$ 服从自由度为 $(p, n - p - 1)$ 的 $F$ 分布。通过比较 $F$ 值与给定显著性水平下的临界值，来判断是否拒绝原假设，即判断整个回归模型是否显著。 ### 预测得到参数估计值后，就可以利用多参数线性回归模型进行预测。对于给定的一组自变量值 $(x_{01}, x_{02}, \cdots, x_{0p})$ ，对应的因变量预测值为： $\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1x_{01}+\hat{\beta}_2x_{02}+\cdots+\hat{\beta}_px_{0p}$ 同时，可以根据估计的模型参数和误差方差，给出预测值的置信区间，以反映预测的不确定性。

$\sum_{i = 1}^{n}(\hat{y}_i - \bar{y})^2$ 是回归平方和，代表了由自变量解释的因变量的变异部分， $\hat{y}_i$ 是根据回归模型预测得到的第 $i$ 个观测值的因变量预测值， $\bar{y} = \frac{1}{n}\sum_{i = 1}^{n}y_i$ 是因变量观测值的均值。

$p$ 是自变量的个数（不包括截距项对应的参数）。

$\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$ 是残差平方和，即模型不能解释的因变量的变异部分， $y_i$ 是第 $i$ 个观测值的因变量实际值。

$n$ 是观测数据点的数量。

$n - p - 1$ 是残差平方和的自由度。在原假设 $H_0:\beta_1 = \beta_2 = \cdots = \beta_p = 0$ （即所有自变量对因变量都没有显著影响）下，该 $F$ 统计量服从自由度为 $(p, n - p - 1)$ 的 $F$ 分布。通过比较计算得到的 $F$ 值与给定显著性水平下的 $F$ 分布临界值，来判断是否拒绝原假设，从而确定整个回归模型是否显著。

总结

这一节提前代入了很多后面的公式，只是为了有个大概印象，梯度函数，最小函数后面会进一步讲解。

总的来说：

模型由单特征的 $f_{w,b}(x)=wx + b$ 变为多特征形式 $f_{w,b}(x)=w_1x_1+w_2x_2+w_3x_3+w_4x_4 + b$ ，（ $b$ 为基本价格， $w_i$ 表示对应特征对价格的影响）。一般地，若有 $n$ 个特征，模型为 $f_{w,b}(x)=w_1x_1+w_2x_2+...+w_nx_n + b$ 。