21、回归估计中的核平滑与最近邻估计方法

核平滑与最近邻估计方法解析

最新推荐文章于 2025-09-08 11:33:56 发布

day7

最新推荐文章于 2025-09-08 11:33:56 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：工程中的统计学习文章标签：核平滑估计最近邻估计带宽选择

本文链接：https://blog.youkuaiyun.com/day7/article/details/152405549

工程中的统计学习专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

回归估计中的核平滑与最近邻估计方法

在回归分析的统计学习领域，核平滑和最近邻估计是两种重要的方法。下面将详细介绍这两种方法的原理、特点以及相关的参数选择。

核平滑估计

核平滑估计与Priestley - Chao估计表现相似，只是在处理输入空间数据密度变化时增加了权重。在适当假设下，特别是 $m(x)$ 和 $p(x)$ 在 $x$ 周围二次可微时，其均方误差为 $\sigma_x^2\frac{1}{Nh} + b_x^2h^4$，其中方差项 $\sigma_x^2 = \frac{\sigma_{\epsilon}^2}{p(x)}Q_K$，偏差项 $b_x = (\frac{1}{2}m’‘(x) + m’(x)\frac{p’(x)}{p(x)})V_K$。

从渐近理论可知，对于大的 $N$ 和最优速率 $h \to 0$（如 $cN^{-\frac{1}{5}}$），缩放后的估计误差 $\sqrt{Nh}(\hat{m}_{NW}(x, h) - m(x))$ 近似服从均值为 $b_x$、方差为 $\sigma_x^2$ 的正态分布。这一性质可用于近似预测分布。

核平滑估计存在边界效应问题。当 $x$ 接近训练集输入值范围的边界时，估计会出现系统偏差。例如，对于具有有限支撑 $[-1, +1]$ 的核函数（如Epanechnikov核），若所有输入 $X_j > 0$ 且 $x < h$，则平滑核的支撑会延伸到无数据的区域 ${z; z < 0}$，导致局部平均项不足，引入额外偏差。若 $m(0) > 0$，边界附近的估计会偏小；反之则偏大。而且，这种边界偏差不会随样本量增加而消失，但对于足够大的 $N$（即足够小的 $h$）