吴恩达机器学习笔记复盘(七)多元线性回归模型

之前4-6的笔记仅复习了单变量线性模型,从这一篇开始复习多变量的模型。

多参数线性回归模型是一种用于分析多个自变量与一个因变量之间线性关系的统计模型。

模型定义

假设我们有n个观测数据点 (x_{i1}, x_{i2}, \cdots, x_{ip}, y_i),其中 i = 1, 2, \cdots, nx_{ij}表示第i个观测值的第 j个自变量,y_i 表示第 i个观测值的因变量。多参数线性回归模型的一般形式为:y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+\epsilon_i其中,\beta_0, \beta_1, \cdots, \beta_p是待估计的参数,\beta_0称为截距项,\beta_j(j = 1, 2, \cdots, p)称为回归系数,\epsilon_i是随机误差项,通常假定 \epsilon_i 独立同分布,且服从均值为 0,方差为\sigma^2的正态分布,即 \epsilon_i \sim N(0, \sigma^2)

参数估计

这部分写的比较笼统,后面的笔记会进一步解释梯度算法

通常采用最小二乘法来估计模型中的参数。最小二乘法的目标是找到一组参数估计值\hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_p,使得观测值 y_i与预测值 \hat{y}_i=\hat{\beta}_0+\hat{\beta}_1x_{i1}+\hat{\beta}_2x_{i2}+\cdots+\hat{\beta}_px_{ip}之间的误差平方和最小。 误差平方和 Q可以表示为: Q=\sum_{i = 1}^{n}(y_i-\hat{y}_i)^2=\sum_{i = 1}^{n}(y_i - \beta_0-\beta_1x_{i1}-\beta_2x_{i2}-\cdots-\beta_px_{ip})^2为了找到使 Q 最小的参数估计值,对 Q 分别关于 \beta_0, \beta_1, \cdots, \beta_p求偏导数,并令偏导数等于0,得到以下正规方程组: \begin{cases}\frac{\partial Q}{\partial\beta_0}=-2\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip}) = 0\\\frac{\partial Q}{\partial\beta_1}=-2\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})x_{i1}= 0\\\cdots\\\frac{\partial Q}{\partial\beta_p}=-2\sum_{i = 1}^{n}(y_i-\beta_0-\beta_1x_{i1}-\cdots-\beta_px_{ip})x_{ip}= 0\end{cases}解这个正规方程组,就可以得到参数的最小二乘估计值 \hat{\beta}_0, \hat{\beta}_1, \cdots, \hat{\beta}_p

模型检验

拟合优度检验

常用的指标是判定系数 R^2,它表示回归平方和占总离差平方和的比例,计算公式为:R^2=\frac{\sum_{i = 1}^{n}(\hat{y}_i-\bar{y})^2}{\sum_{i = 1}^{n}(y_i-\bar{y})^2} 其中,\bar{y}=\frac{1}{n}\sum_{i = 1}^{n}y_iy_i 的均值。R^2 的取值范围在 0-1之间,R^2越接近 1,说明模型对数据的拟合程度越好。

变量的显著性检验

对于每个回归系数 \beta_j,需要检验其是否显著不为 0。通常采用t检验,检验统计量为:t_j=\frac{\hat{\beta}_j}{s.e.(\hat{\beta}_j)} 其中,s.e.(\hat{\beta}_j)\hat{\beta}_j的标准误差。在原假设H_0:\beta_j = 0 下,t_j服从自由度为 n - p - 1t分布。通过计算 t_j的值,并与给定的显著性水平下的临界值进行比较,来判断是否拒绝原假设,从而确定变量x_j 对因变量 y的影响是否显著。

模型的显著性检验

采用 F检验来检验整个回归模型的显著性。检验统计量为:

F = \frac{\frac{\sum_{i = 1}^{n}(\hat{y}_i - \bar{y})^2}{p}}{\frac{\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2}{n - p - 1}}

在原假设 H_0:\beta_1=\beta_2=\cdots=\beta_p = 0下,F服从自由度为(p, n - p - 1)F分布。通过比较 F值与给定显著性水平下的临界值,来判断是否拒绝原假设,即判断整个回归模型是否显著。 ### 预测 得到参数估计值后,就可以利用多参数线性回归模型进行预测。对于给定的一组自变量值 (x_{01}, x_{02}, \cdots, x_{0p}),对应的因变量预测值为:\hat{y}_0=\hat{\beta}_0+\hat{\beta}_1x_{01}+\hat{\beta}_2x_{02}+\cdots+\hat{\beta}_px_{0p} 同时,可以根据估计的模型参数和误差方差,给出预测值的置信区间,以反映预测的不确定性。

\sum_{i = 1}^{n}(\hat{y}_i - \bar{y})^2是回归平方和,代表了由自变量解释的因变量的变异部分,\hat{y}_i是根据回归模型预测得到的第 i个观测值的因变量预测值,\bar{y} = \frac{1}{n}\sum_{i = 1}^{n}y_i是因变量观测值的均值。

p是自变量的个数(不包括截距项对应的参数)。

 \sum_{i = 1}^{n}(y_i - \hat{y}_i)^2是残差平方和,即模型不能解释的因变量的变异部分,y_i 是第i个观测值的因变量实际值。

n 是观测数据点的数量。

n - p - 1是残差平方和的自由度 。 在原假设 H_0:\beta_1 = \beta_2 = \cdots = \beta_p = 0(即所有自变量对因变量都没有显著影响)下,该 F统计量服从自由度为 (p, n - p - 1)F分布。通过比较计算得到的 F值与给定显著性水平下的 F分布临界值,来判断是否拒绝原假设,从而确定整个回归模型是否显著。

总结

这一节提前代入了很多后面的公式,只是为了有个大概印象,梯度函数,最小函数后面会进一步讲解。

总的来说:

模型由单特征的f_{w,b}(x)=wx + b 变为多特征形式f_{w,b}(x)=w_1x_1+w_2x_2+w_3x_3+w_4x_4 + b,(b为基本价格,w_i表示对应特征对价格的影响)。一般地,若有n个特征,模型为f_{w,b}(x)=w_1x_1+w_2x_2+...+w_nx_n + b

然后将模型简化。将参数w定义为向量\vec{w}=(w_1,w_2,...,w_n)x也定义为向量\vec{x}=(x_1,x_2,...,x_n),模型可重写为f_{\vec{w},b}(\vec{x})=\vec{w}\cdot\vec{x}+b

其这里用到线性代数的点乘 \vec{w}\cdot\vec{x}=w_1x_1+w_2x_2+...+w_nx_n,这种表示更紧凑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值