1. LOWESS
用kNN做平均回归:
\[\hat{f(x)} = Ave(y_i | x_i \in N_k(x)) \]
其中,\(N_k(x)\)为距离点x最近k个点组成的邻域集合(neighborhood set)。这种邻域平均回归存在很多缺点:
- 没有考虑到不同距离的邻近点应有不同的权重;
- 拟合的曲线不连续(discontinuous),如下图。

因此引入kernel加权平滑:
\[\hat{f(x_0)} = \frac{ \sum_{i=1}^{N} K_{\lambda}(x_0, x_i)y_i }{\sum_{i=1}^{N} K_{\lambda}(x_0, x_i)} \]
比如,Epanechnikov 二次kernel:
\[K_{\lambda}(x_0, x_i) = D(\frac{|x_0 - x_i|}{\lambda}) \]
\[D(t) = \left \{ { \matrix { {\frac{3}{4} (1-t^2) } & {for |t| < 1} \cr { 0} & {otherwise} \cr }
LOWESS(局部加权回归)是一种非参数回归方法,通过kernel加权平滑解决kNN回归的不连续问题。文章介绍了LOWESS的基本原理,包括Epanechnikov二次kernel的应用,并指出其在边界处的问题。接着,作者提出了Robust LOWESS,通过引入robustness weight来抵抗异常值影响,提供了一种更稳健的回归方法。文中还提到了Python实现的相关资源。
订阅专栏 解锁全文
5309

被折叠的 条评论
为什么被折叠?



