参数估计的均方误差（MSE），偏置（Bias）与方差（Variance）分解，无偏估计

最新推荐文章于 2025-05-04 17:23:56 发布

原创最新推荐文章于 2025-05-04 17:23:56 发布 · 1.2w 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #概率论 #线性回归 #深度学习 #回归

机器学习专栏收录该内容

30 篇文章

订阅专栏

本文详细介绍了均方误差(MSE)的概念及其在参数估计中的应用，通过数学推导展示了MSE如何被分解为方差和偏置，并讨论了无偏估计与最小二乘估计的性质。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

均方误差，偏置和方差都是统计学中非常重要的概念。

均方误差MSE

对于机器学习来说，MSE一般是计算两个东西的MSE，一个是参数估计的MSE，一个是模型预测的MSE。我主要关注的是参数估计的MSE。

定义

参数估计的MSE定义为 $MSE=Eθ[(θ^−θ)2]MSE = E_\theta[(\hat{\theta}-\theta)^2]$ ，其中 $θ\theta$ 表示真值， $θ^\hat{\theta}$ 表示预测值， $EθE_\theta$ 并不是表示在 $θ\theta$ 的分布上求期望，而是关于似然函数的期望，即 $Eθ[(θ^−θ)2]=∫x(θ^−θ)2f(x;θ)dxE_\theta[(\hat{\theta}-\theta)^2]=\int_{x}(\hat{\theta}-\theta)^2f(x;\theta)dx$
，可以理解为在所有观测值上求平均。

方差偏置分解

MSE可以进行分解：
$MSE=Eθ[(θ^−θ)2]=Eθ[θ^2+θ2−2θ^θ]=Eθ[θ^2]−Eθ[θ^]2+Eθ[θ^]2+θ2−2θEθ[θ^]=Vθ[θ^]+(θ−Eθ[θ^])2MSE = E_\theta[(\hat{\theta}-\theta)^2] =E_\theta[\hat{\theta}^2+\theta^2-2\hat{\theta}\theta] \\= E_\theta[\hat{\theta}^2]-E_\theta[\hat{\theta}]^2+E_\theta[\hat{\theta}]^2+\theta^2-2\theta E_\theta[\hat{\theta}]\\=V_\theta[\hat{\theta}]+(\theta-E_\theta[\hat{\theta}])^2$
定义估计的偏置（偏差）为： $bias=Eθ[θ^]−θbias = E_\theta[\hat{\theta}]-\theta$
则上式进一步写为：
$MSE=Vθ[θ^]+bias2MSE = V_\theta[\hat{\theta}]+bias^2$

如果利用蒙特卡洛积分估计MSE这个期望：
$Eθ[(θ^−θ)2]=∫x(θ^−θ)2f(x;θ)dx=1N∑i=1N(θ^i−θ)2E_\theta[(\hat{\theta}-\theta)^2]=\int_{x}(\hat{\theta}-\theta)^2f(x;\theta)dx\\= \frac{1}{N}\sum_{i=1}^{N}(\hat{\theta}_i-\theta)^2$ 其中， $θ^i\hat{\theta}_i$ 是由第 $i$ 个数据估计得来。很多时候下，做机器学习的时候，我们都用这个均方误差来作为优化的目标。

无偏估计

当 $bia s$ 为0的时候，该估计就是参数的无偏估计。
有时候，虽然估计是有偏的，但是当数据愈来愈多的时候，参数的估计能够依概率收敛到真实值上，称为相合： $θ^→θ\hat{\theta}\rightarrow\theta$

最小二乘估计（OLS）的MSE

模型为： $X\theta+\epsilon$
多元最小二乘估计(多元高斯噪声最大似然估计)的解为： $θ^=(XTX)−1XTy\hat{\theta}=(X^TX)^{-1}X^Ty$
偏差为： $E[(XTX)−1XTy]−θ=(XTX)−1XTE[y]−θ=(XTX)−1XTXθ−θ=θ−θ=0E[(X^TX)^{-1}X^Ty]-\theta\\=(X^TX)^{-1}X^TE[y]-\theta\\=(X^TX)^{-1}X^TX\theta-\theta\\=\theta-\theta=0$
若假设噪声的方差是 $σ2I\sigma^2I$ ,则估计量的方差是：
$Vθ[(XTX)−1XTy]=(XTX)−1XT)Vθ[y](XTX)−1XT)T=σ2(XTX)−1V_\theta[(X^TX)^{-1}X^Ty]=(X^TX)^{-1}X^T)V_\theta[y](X^TX)^{-1}X^T)^T\\=\sigma^2(X^TX)^{-1}$