最大似然估计中的偏差及曲线拟合问题探讨
1. 最大似然估计中偏差的产生
在使用最大似然估计来确定高斯分布的方差时,会出现偏差问题。下面我们结合一个示例来详细说明。
1.1 示例说明
有一个绿色曲线代表真实的高斯分布,从中生成数据。另外有三条红色曲线,它们是通过最大似然估计结果(1.55)和(1.56),对三组数据进行拟合得到的高斯分布。每组数据包含两个蓝色的数据点。
对这三组数据的结果进行平均后发现,均值是正确的,但方差却被系统性地低估了。这是因为方差是相对于样本均值来测量的,而不是相对于真实均值。
1.2 数据量对偏差的影响
| 数据点数量 N | 偏差情况 |
|---|---|
| 较小时 | 最大似然解的偏差较为显著 |
| 增大时 | 偏差变得不那么显著 |
| N → ∞ | 最大似然解得到的方差等于生成数据的分布的真实方差 |
在实际应用中,只要数据点数量 N 不是很小,这种偏差通常不会成为严重问题。然而,对于具有许多参数的更复杂模型,最大似然估计相关的偏差问题会严重得多。实际上,最大似然估计中的偏差问题正是我们之前在多项式曲线拟合中遇到的过拟合问题的根源。
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



