【计量经济学】【高教版】第一次作业（7、8、10）

原创已于 2023-03-20 20:09:49 修改 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #回归 #python #计量经济学

于 2023-03-19 19:40:34 首次发布

第二次

7.假设有人做了如下的回归：
$yi=β0^+β1^xi+eiy_i=\widehat{\beta_0}+\widehat{\beta_1}x_i+e_i$
其中， $y_i,x_i$ 分别为 $Y_i,X_i$ 关于各自均值的离差。问 $β0^和β1^\widehat{\beta_0}和\widehat{\beta_1}$ 将分别取何值？

8.记样本回归模型为 $Yi=β0^+β1^Xi+eiY_i=\widehat{\beta_0}+\widehat{\beta_1}X_i+e_i$ ,试证明普通最小二乘法估计的如下数值特征：
（1）估计的Y的均值等于实测的Y的均值： $Y^=Yˉ\widehat{Y}=\bar{Y}$ ;
（2）点( $Xˉ\bar{X}$ , $Yˉ\bar{Y}$ )总在样本回归线上；
（3）残差和为0，从而残差的均值为0： $Σei\Sigma e_i$ =0, $eˉ\bar{e}$ =0;
（4）残差与X不相关： $ΣeiXi=0\Sigma e_i {X_i}=0$ ;
（5）残差与估计的Y不相关： $ΣeiYi^=0\Sigma e_i \widehat{Y_i}=0$ ;
（6）残差项与Y离差的估计不相关： $Σeiyi^=0\Sigma e_i \widehat{y_i}=0$ ;

10.试证明：Y关于X的普通最小二乘回归，其可决系数 $R^2$ 就是X与Y之间线性相关系数r的平方。

7

在这里插入图片描述
根据一元线性回归的最小二乘估计公式，可以得到 $β1^\widehat{\beta_1}$ 和 $β0^\widehat{\beta_0}$ 的表达式分别为：

其中， $xˉ\bar{x}$ 和 $yˉ\bar{y}$ 分别为 $x_i$ 和 $y_i$ 的样本均值。由题可知， $y_i$ 和 $x_i$ 分别为 $Y_i$ 和 $X_i$ 关于各自均值的离差，因此可以将 $xˉ=0\bar{x}=0$ 和 $yˉ=0\bar{y}=0$ 代入上述公式，得到：
在这里插入图片描述
因此， $β0^=0\widehat{\beta_0}=0$ ， $β1^\widehat{\beta_1}$ 可以根据上述公式计算。

8

（1）估计的Y的均值等于实测的Y的均值： $Y^=Yˉ\widehat{Y}=\bar{Y}$

根据样本回归模型，我们有：

$Y^=β0^+β1^X\widehat{Y}=\widehat{\beta_0}+\widehat{\beta_1}X$

其中， $β0^\widehat{\beta_0}$ 和 $β1^\widehat{\beta_1}$ 是通过最小化残差平方和来进行估计的。因此，我们有：

$∑i=1nei2=∑i=1n(Yi−β0^−β1^Xi)2\sum_{i=1}^n e_i^2=\sum_{i=1}^n(Y_i-\widehat{\beta_0}-\widehat{\beta_1}X_i)^2$

将 $Y^\widehat{Y}$ 代入上式，得到：

$∑i=1nei2=∑i=1n(Yi−Y^)2\sum_{i=1}^n e_i^2=\sum_{i=1}^n(Y_i-\widehat{Y})^2$

由于 $Y^\widehat{Y}$ 是通过最小化残差平方和来估计的，因此它是使得 $∑i=1n(Yi−Y^)2\sum_{i=1}^n(Y_i-\widehat{Y})^2$ 最小的值。这意味着 $Y^\widehat{Y}$ 是实际Y的均值 $Yˉ\bar{Y}$ ，因为 $Yˉ\bar{Y}$ 也是使得 $∑i=1n(Yi−Yˉ)2\sum_{i=1}^n(Y_i-\bar{Y})^2$ 最小的值。

因此，我们有 $Y^=Yˉ\widehat{Y}=\bar{Y}$ 。

（2）点( $Xˉ\bar{X}$ , $Yˉ\bar{Y}$ )总在样本回归线上

样本回归线可以表示为 $Y=β0^+β1^XY=\widehat{\beta_0}+\widehat{\beta_1}X$ 。将 $X$ 替换为 $Xˉ\bar{X}$ ， $Y$ 替换为 $Y^\widehat{Y}$ ，得到：

$Y^=β0^+β1^Xˉ\widehat{Y}=\widehat{\beta_0}+\widehat{\beta_1}\bar{X}$

由（1）可知， $Y^=Yˉ\widehat{Y}=\bar{Y}$ ，因此：

$Yˉ=β0^+β1^Xˉ\bar{Y}=\widehat{\beta_0}+\widehat{\beta_1}\bar{X}$

这意味着点( $Xˉ\bar{X}$ , $Yˉ\bar{Y}$ )在样本回归线上。

（3）残差和为0，从而残差的均值为0： $Σei\Sigma e_i$ =0, $eˉ\bar{e}$ =0

样本回归模型可以表示为 $Yi=β0^+β1^Xi+eiY_i=\widehat{\beta_0}+\widehat{\beta_1}X_i+e_i$ 。将 $Y^\widehat{Y}$ 代入得到：

$ei=Yi−Y^=(Yi−Yˉ)−(Y^−Yˉ)e_i=Y_i-\widehat{Y}=(Y_i-\bar{Y})-(\widehat{Y}-\bar{Y})$

因为 $Y^=Yˉ\widehat{Y}=\bar{Y}$ ，所以：

$ei=(Yi−Yˉ)−(Yˉ−Y^)=Yi−Yˉe_i=(Y_i-\bar{Y})-(\bar{Y}-\widehat{Y})=Y_i-\bar{Y}$

因此，

$∑i=1nei=∑i=1n(Yi−Yˉ)=0\sum_{i=1}^n e_i=\sum_{i=1}^n(Y_i-\bar{Y})=0$

这意味着残差的和为0，从而残差的均值为0，即 $eˉ=0\bar{e}=0$ 。

（4）残差与X不相关： $ΣeiXi=0\Sigma e_i {X_i}=0$

样本回归模型可以表示为 $Yi=β0^+β1^Xi+eiY_i=\widehat{\beta_0}+\widehat{\beta_1}X_i+e_i$ 。将 $e_i$ 代入得到：

$Yi−β0^−β1^Xi=eiY_i-\widehat{\beta_0}-\widehat{\beta_1}X_i=e_i$

左右两边同时乘以 $X_i$ ：

$XiYi−β0^Xi−β1^Xi2=XieiX_iY_i-\widehat{\beta_0}X_i-\widehat{\beta_1}X_i^2=X_ie_i$

对所有的 $i$ 进行求和：

$∑i=1nXiYi−β0^∑i=1nXi−β1^∑i=1nXi2=∑i=1nXiei\sum_{i=1}^n X_iY_i-\widehat{\beta_0}\sum_{i=1}^n X_i-\widehat{\beta_1}\sum_{i=1}^n X_i^2=\sum_{i=1}^n X_ie_i$

因为最小化残差平方和的条件是 $∑i=1nXiei=0\sum_{i=1}^n X_ie_i=0$ ，所以：

$∑i=1nXiYi−β0^∑i=1nXi−β1^∑i=1nXi2=0\sum_{i=1}^n X_iY_i-\widehat{\beta_0}\sum_{i=1}^n X_i-\widehat{\beta_1}\sum_{i=1}^n X_i^2=0$

将 $β0^\widehat{\beta_0}$ 和 $β1^\widehat{\beta_1}$ 的表达式代入，得到：

$∑i=1nXiYi−∑i=1nXi∑i=1nYin−∑i=1nXi2∑i=1nYi∑i=1nXi2=0\sum_{i=1}^n X_iY_i-\frac{\sum_{i=1}^n X_i\sum_{i=1}^n Y_i}{n}-\frac{\sum_{i=1}^n X_i^2\sum_{i=1}^n Y_i}{\sum_{i=1}^n X_i^2}=0$

这个式子可以写成：

$∑i=1n(Xi−Xˉ)(Yi−Yˉ)n−1=0\frac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{n-1}=0$

因此，残差 $e_i$ 与 $X_i$ 不相关。

（5）残差与估计的Y不相关： $ΣeiYi^=0\Sigma e_i \widehat{Y_i}=0$

因为 $Yi^\widehat{Y_i}$ 是通过最小化残差平方和来估计的，所以残差与 $Yi^\widehat{Y_i}$ 之间的协方差应该为0。因此，我们有：

$Cov(ei,Yi^)=E(eiYi^)−E(ei)E(Yi^)=0Cov(e_i,\widehat{Y_i})=E(e_i\widehat{Y_i})-E(e_i)E(\widehat{Y_i})=0$

因为 $E(e_i)=0$ ，所以：

$E(eiYi^)=0E(e_i\widehat{Y_i})=0$

因此，

$∑i=1neiYi^=0\sum_{i=1}^n e_i \widehat{Y_i}=0$

（6）残差项与Y离差的估计不相关： $Σeiyi^=0\Sigma e_i \widehat{y_i}=0$

根据样本回归模型， $yi=β0^+β1^xiy_i=\widehat{\beta_0}+\widehat{\beta_1}x_i$ ，其中 $y_i$ 表示Y的离差

将 $yi^\widehat{y_i}$ 代入得到：

$yi^=β0^+β1^xi\widehat{y_i}=\widehat{\beta_0}+\widehat{\beta_1}x_i$

将残差 $ei=Yi−yi^e_i=Y_i-\widehat{y_i}$ 代入，得到：

$ei=Yi−β0^−β1^xi=Yi−yi^e_i=Y_i-\widehat{\beta_0}-\widehat{\beta_1}x_i=Y_i-\widehat{y_i}$

因此，

$∑i=1neiyi^=∑i=1n(Yi−yi^)yi^=∑i=1nYiyi^−∑i=1nyi^2\sum_{i=1}^n e_i \widehat{y_i}=\sum_{i=1}^n (Y_i-\widehat{y_i})\widehat{y_i}=\sum_{i=1}^n Y_i\widehat{y_i}-\sum_{i=1}^n \widehat{y_i}^2$

我们需要证明 $∑i=1nYiyi^=∑i=1nyi^2\sum_{i=1}^n Y_i\widehat{y_i}=\sum_{i=1}^n \widehat{y_i}^2$ 。

首先，我们有：

$∑i=1nYiyi^=∑i=1nYi(β0^+β1^xi)\sum_{i=1}^n Y_i\widehat{y_i}=\sum_{i=1}^n Y_i(\widehat{\beta_0}+\widehat{\beta_1}x_i)$

将 $β0^\widehat{\beta_0}$ 和 $β1^\widehat{\beta_1}$ 的表达式代入，得到：

$∑i=1nYiyi^=∑i=1nYi(∑i=1nxi2∑i=1nYi−∑i=1nxi∑i=1nxiYin∑i=1nxi2−(∑i=1nxi)2+Yˉ∑i=1nxi−Xˉ∑i=1nYin∑i=1nxi2−(∑i=1nxi)2xi)\sum_{i=1}^n Y_i\widehat{y_i}=\sum_{i=1}^n Y_i\left(\frac{\sum_{i=1}^n x_i^2\sum_{i=1}^n Y_i-\sum_{i=1}^n x_i\sum_{i=1}^n x_iY_i}{n\sum_{i=1}^n x_i^2-(\sum_{i=1}^n x_i)^2}+\frac{\bar{Y}\sum_{i=1}^n x_i-\bar{X}\sum_{i=1}^n Y_i}{n\sum_{i=1}^n x_i^2-(\sum_{i=1}^n x_i)^2}x_i\right)$

将 $Xˉ\bar{X}$ 和 $Yˉ\bar{Y}$ 代入，得到：

$∑i=1nYiyi^=∑i=1nxi2∑i=1nYi−∑i=1nxi∑i=1nxiYin∑i=1nxi2−(∑i=1nxi)2∑i=1nxi+Yˉ∑i=1nxi−Xˉ∑i=1nYin∑i=1nxi2−(∑i=1nxi)2∑i=1nxi\sum_{i=1}^n Y_i\widehat{y_i}=\frac{\sum_{i=1}^n x_i^2\sum_{i=1}^n Y_i-\sum_{i=1}^n x_i\sum_{i=1}^n x_iY_i}{n\sum_{i=1}^n x_i^2-(\sum_{i=1}^n x_i)^2}\sum_{i=1}^n x_i+\frac{\bar{Y}\sum_{i=1}^n x_i-\bar{X}\sum_{i=1}^n Y_i}{n\sum_{i=1}^n x_i^2-(\sum_{i=1}^n x_i)^2}\sum_{i=1}^n x_i$

因为 $∑i=1nxiYi=∑i=1nxiyi^+∑i=1nxiei\sum_{i=1}^n x_iY_i=\sum_{i=1}^n x_i\widehat{y_i}+\sum_{i=1}^n x_ie_i$ ，所以：
现在我们将证明 $∑i=1neiyi^=0\sum_{i=1}^{n} e_i \widehat{y_i} = 0$ ，即

$∑i=1n(Yi−yi^)yi^=0\sum_{i=1}^{n} (Y_i-\widehat{y_i}) \widehat{y_i} = 0$

将 $yi^\widehat{y_i}$ 代入，我们得到

$∑i=1n(Yi−β0^−β1^xi)(β0^+β1^xi)=0\sum_{i=1}^{n} (Y_i - \widehat{\beta_0} - \widehat{\beta_1} x_i)(\widehat{\beta_0} + \widehat{\beta_1} x_i) = 0$

展开括号并化简，我们得到

$∑i=1n(β0^Yi+β1^xiYi−β0^β1^xi−β1^xi2)=0\sum_{i=1}^{n} (\widehat{\beta_0} Y_i + \widehat{\beta_1} x_i Y_i - \widehat{\beta_0} \widehat{\beta_1} x_i - \widehat{\beta_1} x_i^2) = 0$

代入 $β0^\widehat{\beta_0}$ 和 $β1^\widehat{\beta_1}$ 的表达式，得到

$∑i=1n(∑i=1nxi2∑i=1nYi−∑i=1nxi∑i=1nxiYin∑i=1nxi2−(∑i=1nxi)2Yi+nYˉ∑i=1nxi−Xˉ∑i=1nYin∑i=1nxi2−(∑i=1nxi)2xiYi−∑i=1nxi∑i=1nYi−nXˉYˉn∑i=1nxi2−(∑i=1nxi)2⋅∑i=1nxi2∑i=1nYi−∑i=1nxi∑i=1nxiYin∑i=1nxi2−(∑i=1nxi)2xi−Xˉ∑i=1nxiYi−Yˉ∑i=1nxi2n∑i=1nxi2−(∑i=1nxi)2xi2)=0\sum_{i=1}^{n} (\frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} Y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} x_i Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} Y_i + \frac{n \bar{Y} \sum_{i=1}^{n} x_i - \bar{X} \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} x_i Y_i - \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} Y_i - n \bar{X} \bar{Y}}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \cdot \frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} Y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} x_i Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} x_i - \frac{\bar{X} \sum_{i=1}^{n} x_i Y_i - \bar{Y} \sum_{i=1}^{n} x_i^2}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} x_i^2) = 0$

将 $n$ 乘到每一项，我们有

现在我们要证明 $∑i=1neiYi^=0\sum_{i=1}^{n} e_i \widehat{Y_i} = 0$ ，即

$∑i=1n(Yi−Yi^)Yi^=0\sum_{i=1}^{n} (Y_i - \widehat{Y_i}) \widehat{Y_i} = 0$

将 $Yi^\widehat{Y_i}$ 代入，我们得到

$∑i=1n(Yi−β0^−β1^xi)(β0^+β1^Xˉ)=0\sum_{i=1}^{n} (Y_i - \widehat{\beta_0} - \widehat{\beta_1} x_i)(\widehat{\beta_0} + \widehat{\beta_1} \bar{X}) = 0$

展开括号并化简，我们得到

$∑i=1n(β0^Yi+β1^XˉYi−β0^β1^Xˉ−β1^xiXˉ)=0\sum_{i=1}^{n} (\widehat{\beta_0} Y_i + \widehat{\beta_1} \bar{X} Y_i - \widehat{\beta_0} \widehat{\beta_1} \bar{X} - \widehat{\beta_1} x_i \bar{X}) = 0$

代入 $β0^\widehat{\beta_0}$ 和 $β1^\widehat{\beta_1}$ 的表达式，得到

$∑i=1n(∑i=1nxi2∑i=1nYi−∑i=1nxi∑i=1nxiYin∑i=1nxi2−(∑i=1nxi)2Yi+nYˉ∑i=1nxi−Xˉ∑i=1nYin∑i=1nxi2−(∑i=1nxi)2XˉYi−∑i=1nxi∑i=1nYi−nXˉYˉn∑i=1nxi2−(∑i=1nxi)2⋅∑i=1nxi2∑i=1nYi−∑i=1nxi∑i=1nxiYin∑i=1nxi2−(∑i=1nxi)2Xˉ−Xˉ∑i=1nxiYi−Yˉ∑i=1nxi2n∑i=1nxi2−(∑i=1nxi)2xiXˉ)=0\sum_{i=1}^{n} (\frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} Y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} x_i Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} Y_i + \frac{n \bar{Y} \sum_{i=1}^{n} x_i - \bar{X} \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \bar{X} Y_i - \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} Y_i - n \bar{X} \bar{Y}}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \cdot \frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} Y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} x_i Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \bar{X} - \frac{\bar{X} \sum_{i=1}^{n} x_i Y_i - \bar{Y} \sum_{i=1}^{n} x_i^2}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} x_i \bar{X}) = 0$

将 $n$ 乘到每一项，我们有
$∑i=1nxi2∑i=1nYin∑i=1nxi2−(∑i=1nxi)2+nYˉ∑i=1nxin∑i=1nxi2−(∑i=1nxi)2−∑i=1nxi∑i=1nYin∑i=1nxi2−(∑i=1nxi)2−∑i=1nxiXˉ∑i=1nYi−nXˉYˉ∑i=1nxin∑i=1nxi2−(∑i=1nxi)2−Xˉ∑i=1nxiYi−Yˉ∑i=1nxi2n∑i=1nxi2−(∑i=1nxi)2xi=0\frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} + \frac{n \bar{Y} \sum_{i=1}^{n} x_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} - \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} - \frac{\sum_{i=1}^{n} x_i \bar{X} \sum_{i=1}^{n} Y_i - n \bar{X} \bar{Y} \sum_{i=1}^{n} x_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} - \frac{\bar{X} \sum_{i=1}^{n} x_i Y_i - \bar{Y} \sum_{i=1}^{n} x_i^2}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} x_i = 0$

将 $Xˉ\bar{X}$ 和 $Yˉ\bar{Y}$ 的表达式代入，我们得到

$∑i=1nxi2∑i=1nYin∑i=1nxi2−(∑i=1nxi)2+n∑i=1nYin∑i=1nxi2−(∑i=1nxi)2⋅∑i=1nxin−∑i=1nxi∑i=1nYin∑i=1nxi2−(∑i=1nxi)2−∑i=1nxi∑i=1nYi−nXˉYˉ∑i=1nxin∑i=1nxi2−(∑i=1nxi)2−Xˉ∑i=1nxiYi−Yˉ∑i=1nxi2n∑i=1nxi2−(∑i=1nxi)2xi=0\frac{\sum_{i=1}^{n} x_i^2 \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} + \frac{n \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} \cdot \frac{\sum_{i=1}^{n} x_i}{n} - \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} Y_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} - \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} Y_i - n \bar{X} \bar{Y} \sum_{i=1}^{n} x_i}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} - \frac{\bar{X} \sum_{i=1}^{n} x_i Y_i - \bar{Y} \sum_{i=1}^{n} x_i^2}{n \sum_{i=1}^{n} x_i^2 - (\sum_{i=1}^{n} x_i)^2} x_i = 0$

将 $n$ 乘到每一项，得到
现在我们把上述式子简化，我们可以把上述式子中的每一个部分代入后整理得到

$β1^=∑i=1n(Xi−Xˉ)(Yi−Yˉ)∑i=1n(Xi−Xˉ)2 =∑i=1n(Xi−Xˉ)Yi−Yˉ∑i=1n(Xi−Xˉ)∑i=1n(Xi−Xˉ)2 =∑i=1nXiYi−nXˉYˉ∑i=1nXi2−nXˉ2 =∑i=1nXiYi−1n∑i=1nXi∑i=1nYi∑i=1nXi2−1n(∑i=1nXi)2\begin{aligned} \widehat{\beta_1} &= \frac{\sum_{i=1}^{n} (X_i - \bar{X}) (Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \ &= \frac{\sum_{i=1}^{n} (X_i - \bar{X}) Y_i - \bar{Y} \sum_{i=1}^{n} (X_i - \bar{X})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \ &= \frac{\sum_{i=1}^{n} X_i Y_i - n \bar{X} \bar{Y}}{\sum_{i=1}^{n} X_i^2 - n \bar{X}^2} \ &= \frac{\sum_{i=1}^{n} X_i Y_i - \frac{1}{n} \sum_{i=1}^{n} X_i \sum_{i=1}^{n} Y_i}{\sum_{i=1}^{n} X_i^2 - \frac{1}{n} \left(\sum_{i=1}^{n} X_i \right)^2} \end{aligned}$

所以我们证明了 $β1^\widehat{\beta_1}$ 的表达式。

10

我们知道，可决系数 $R^2$ 定义为：

$R2=SSRSST=1−SSESSTR^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$

其中， $SSR$ 是回归平方和， $SSE$ 是残差平方和， $SST$ 是总平方和。而普通最小二乘回归的线性方程为：

$Yi=β0^+β1^Xi+eiY_i = \hat{\beta_0} + \hat{\beta_1} X_i + e_i$

其中， $e_i$ 是误差项， $β0^\hat{\beta_0}$ 和 $β1^\hat{\beta_1}$ 分别是回归方程的截距和斜率的最小二乘估计量。

我们知道线性相关系数 $r$ 定义为：

$\frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n} (Y_i - \bar{Y})^2}}$

我们现在来证明 $R^2$ 等于 $r$ 的平方。

首先，根据定义，总平方和 $SST$ 可以表示为：

$\sum_{i=1}^{n} (Y_i - \bar{Y})^2$

而残差平方和 $SSE$ 可以表示为：

$SSE=∑i=1n(Yi−Yi^)2SSE = \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2$

其中， $Yi^=β0^+β1^Xi\hat{Y_i} = \hat{\beta_0} + \hat{\beta_1} X_i$ 是回归方程的预测值。

进一步地，回归平方和 $SSR$ 可以表示为：

$SSR=∑i=1n(Yi^−Yˉ)2SSR = \sum_{i=1}^{n} (\hat{Y_i} - \bar{Y})^2$

我们现在来计算 $SSR$ 和 $SSE$ 。
$SSE=∑i=1n(Yi−Yi^)2 =∑i=1n(Yi−β0^−β1^Xi)2 =∑i=1n(Yi−Yˉ+Yˉ−β0^−β1^Xi)2 =∑i=1n(Yi−Yˉ)2+(β0^−Yˉ)2+β1^2∑i=1nXi2−2β1^∑i=1nXi(Yi−Yˉ)−2(β0^−Yˉ)∑i=1n(Yi−Yˉ) =n(β0^−Yˉ)2+β1^2∑i=1nXi2+(Yˉ−β0^)2∑i=1n1−2β1^∑i=1nXi(Yi−Yˉ)\begin{aligned} SSE &= \sum_{i=1}^{n} (Y_i - \hat{Y_i})^2 \ &= \sum_{i=1}^{n} (Y_i - \hat{\beta_0} - \hat{\beta_1} X_i)^2 \ &= \sum_{i=1}^{n} (Y_i - \bar{Y} + \bar{Y} - \hat{\beta_0} - \hat{\beta_1} X_i)^2 \ &= \sum_{i=1}^{n} (Y_i - \bar{Y})^2 + (\hat{\beta_0} - \bar{Y})^2 + \hat{\beta_1}^2 \sum_{i=1}^{n} X_i^2 - 2\hat{\beta_1} \sum_{i=1}^{n} X_i(Y_i - \bar{Y}) - 2(\hat{\beta_0} - \bar{Y})\sum_{i=1}^{n} (Y_i - \bar{Y}) \ &= n(\hat{\beta_0} - \bar{Y})^2 + \hat{\beta_1}^2 \sum_{i=1}^{n} X_i^2 + (\bar{Y} - \hat{\beta_0})^2 \sum_{i=1}^{n} 1 - 2\hat{\beta_1} \sum_{i=1}^{n} X_i(Y_i - \bar{Y}) \end{aligned}$