回归估计中的核平滑与最近邻估计方法
在回归分析的统计学习领域,核平滑和最近邻估计是两种重要的方法。下面将详细介绍这两种方法的原理、特点以及相关的参数选择。
核平滑估计
核平滑估计与Priestley - Chao估计表现相似,只是在处理输入空间数据密度变化时增加了权重。在适当假设下,特别是 $m(x)$ 和 $p(x)$ 在 $x$ 周围二次可微时,其均方误差为 $\sigma_x^2\frac{1}{Nh} + b_x^2h^4$,其中方差项 $\sigma_x^2 = \frac{\sigma_{\epsilon}^2}{p(x)}Q_K$,偏差项 $b_x = (\frac{1}{2}m’‘(x) + m’(x)\frac{p’(x)}{p(x)})V_K$。
从渐近理论可知,对于大的 $N$ 和最优速率 $h \to 0$(如 $cN^{-\frac{1}{5}}$),缩放后的估计误差 $\sqrt{Nh}(\hat{m}_{NW}(x, h) - m(x))$ 近似服从均值为 $b_x$、方差为 $\sigma_x^2$ 的正态分布。这一性质可用于近似预测分布。
核平滑估计存在边界效应问题。当 $x$ 接近训练集输入值范围的边界时,估计会出现系统偏差。例如,对于具有有限支撑 $[-1, +1]$ 的核函数(如Epanechnikov核),若所有输入 $X_j > 0$ 且 $x < h$,则平滑核的支撑会延伸到无数据的区域 ${z; z < 0}$,导致局部平均项不足,引入额外偏差。若 $m(0) > 0$,边界附近的估计会偏小;反之则偏大。而且,这种边界偏差不会随样本量增加而消失,但对于足够大的 $N$(即足够小的 $h$)
核平滑与最近邻估计方法解析
超级会员免费看
订阅专栏 解锁全文
3744

被折叠的 条评论
为什么被折叠?



