21、回归估计中的核平滑与最近邻估计方法

核平滑与最近邻估计方法解析

回归估计中的核平滑与最近邻估计方法

在回归分析的统计学习领域,核平滑和最近邻估计是两种重要的方法。下面将详细介绍这两种方法的原理、特点以及相关的参数选择。

核平滑估计

核平滑估计与Priestley - Chao估计表现相似,只是在处理输入空间数据密度变化时增加了权重。在适当假设下,特别是 $m(x)$ 和 $p(x)$ 在 $x$ 周围二次可微时,其均方误差为 $\sigma_x^2\frac{1}{Nh} + b_x^2h^4$,其中方差项 $\sigma_x^2 = \frac{\sigma_{\epsilon}^2}{p(x)}Q_K$,偏差项 $b_x = (\frac{1}{2}m’‘(x) + m’(x)\frac{p’(x)}{p(x)})V_K$。

从渐近理论可知,对于大的 $N$ 和最优速率 $h \to 0$(如 $cN^{-\frac{1}{5}}$),缩放后的估计误差 $\sqrt{Nh}(\hat{m}_{NW}(x, h) - m(x))$ 近似服从均值为 $b_x$、方差为 $\sigma_x^2$ 的正态分布。这一性质可用于近似预测分布。

核平滑估计存在边界效应问题。当 $x$ 接近训练集输入值范围的边界时,估计会出现系统偏差。例如,对于具有有限支撑 $[-1, +1]$ 的核函数(如Epanechnikov核),若所有输入 $X_j > 0$ 且 $x < h$,则平滑核的支撑会延伸到无数据的区域 ${z; z < 0}$,导致局部平均项不足,引入额外偏差。若 $m(0) > 0$,边界附近的估计会偏小;反之则偏大。而且,这种边界偏差不会随样本量增加而消失,但对于足够大的 $N$(即足够小的 $h$)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值