核光滑方法

最新推荐文章于 2021-07-19 21:18:36 发布

原创最新推荐文章于 2021-07-19 21:18:36 发布 · 5.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#预测

ESL 专栏收录该内容

8 篇文章

订阅专栏

注意：这里将的核函数和讲希尔伯特空间提到的核函数不是一回事，这里的核函数仅仅作为一种局部化的表示工具。而另一种核函数是在高维空间内计算内积，解决非线性问题的。

基本思想是使用靠近目标点 $x_0$ 处的点来生成预测模型。
我们通常使用权重函数或者核数 $K_\lambda(x_0,x_i)$ ，来达到函数光滑的效果。这两种方法都是参考 $x_i到x_0$ 的距离，给 $x_i$ 赋予一个权重。越靠近 $x_0$ 的权重越大，对 $x_0$ 的预测值的影响越大。

注：核函数 $K_\lambda$ 使用 $\lambda$ 来索引， $\lambda$ 代表邻域的宽度

这种方法还可以称为 $memory-based\ methods$ ，大意就是说模型其实就是数据集本身，在预测的时候完成训练。

一维空间

KNN
图中:k近邻方法， $(x_i,y_i)$ ,i=1,…,100,K=30。
左图直接使用平均数预测 $y_0$ ，可以发现左图的平均数是不光滑，不连续的。为了解决这种问题，我们给参与预测的 $y_i$ 赋上权重。

$Nadaraya-Watson \ kernel-weighted\ average$

$f (x 0) = \sum N i = 1 K λ ( x 0 , x i ) y i \sum N i = 1 K λ ( x 0 , x i ) K λ (x 0, x) = D (| x - x 0 | λ)$ $\begin{align} &f(x_0)=\frac{\sum^N_{i=1}K_\lambda(x_0,x_i)y_i}{\sum^N_{i=1}K_\lambda(x_0,x_i)}\\ &K_\lambda(x_0,x)=D(\frac{|x-x_0|}{\lambda})\\ \end{align}$
$D (t) = ⎧ ⎩ ⎨ 3 4 (1 - t 2), | t | \leq 1 0, o t h e r$ $D(t)=\left \{ \begin{align} &\frac{3}{4}(1-t^2) ,\ |t|\le1\\ &0,\ other \end{align} \right.$

通过上面的方法就能得到右图。

直观的理解就是：假设我们将 $x_0$ 从左向右移动，刚进入邻域的点的权值为0，慢慢增大。权重作用的区域是通过 $\lambda$ 来调节。

为了使上述核函数更有一般性，我们可以使用 $h_\lambda(x_0)$ 来表示宽度函数(之前我们使用 $\lambda$ 来表示宽度)：

$K λ (x 0, x) = D (| x - x 0 | h λ ( x 0 ))$ $K_\lambda(x_0,x)=D(\frac{|x-x_0|}{h_\lambda(x_0)})$

$h_\lambda(x_0)$ 在KNN里面就是 $x_0$ 近邻个数 $k$

上面的例子里 $h_\lambda$ 就是 $\lambda$

局部线性回归

这里写图片描述

通过使用核权重的方法，我们可以获得光滑的曲线
。但是，核函数不具有对称性，因此，当 $x_0$ 处于边界
位置的时候，预测会出现问题。如图显示的红色点。
我们可以使用局部线性回归：

m i n α (x 0), β (x 0) \sum i = 1 N K λ (x o, x i) [y i - α (x 0) - β (x 0) x i] 2 f^(x 0) = α^(x 0) + β^(x 0) x 0

$\begin{align} &min_{\alpha(x_0),\beta(x_0)}\sum^N_{i=1}K_\lambda(x_o,x_i)[y_i-\alpha(x_0)-\beta(x_0)x_i]^2\\ &\hat{f}(x_0)=\hat \alpha(x_0)+\hat \beta(x_0)x_0 \end{align}$

注:
我们可以换一种形式来写预测函数:
$\hat f(x_0)=\hat \alpha _{x_0}+\hat \beta_{x_0}x_0$ ，也就是说 $\hat \alpha(x_0)和\hat \beta(x_0)$ 是预测函数的系数，它们不是 $x_0$ 的函数。

我们可以显示地给出预测函数:

f^(x 0) = b (x 0) T (B T W (x 0) B) - 1 B T W (x 0) y = \sum i = 1 N l i (x o) y i

$\begin{align} \hat f(x_0)&=b(x_0)^T(B^TW(x_0)B)^{-1}B^TW(x_0)y\\ &=\sum^N_{i=1}l_i(x_o)y_i \end{align}$

$b(x)^T=(1,x)$
$B\in \mathbb{R}^{N\times N},B_i=b(x_i)^T$
$W\in \mathbb{R}^{N\times N},W_i=K\lambda(x_0,x_i)$

注：这式子怎么推导我没想出来，但是和线性回归里的函数挺像的:

$y^= X β^= X (X T X) - 1 X T y$ $\hat y = X\hat \beta=X(X^TX)^{-1}X^Ty$

$b(x_0)\ \rightarrow \ X$
$B^T \ \rightarrow \ B^TW(x_0)$

通过这个式子，我们可以发现预测函数是关于 $y_i$ 的线性函数。

模型bias分析

$E f^(x 0) = \sum i = 1 N l i (x 0) f (x i) = f (x 0) \sum i = 1 N l i (x 0) + f' (x 0) \sum i = 1 N (x i - x 0) l i (x 0) + f '' ( x 0 ) 2 \sum i = 1 N (x i - x 0) 2 l i (x 0) + R$ $\begin{align} E\hat f(x_0)&=\sum^N_{i=1}l_i(x_0)f(x_i)\\ &=f(x_0)\sum^N_{i=1}l_i(x_0)+f'(x_0)\sum^N_{i=1}(x_i-x_0)l_i(x_0)+\frac{f''(x_0)}{2}\sum^N_{i=1}(x_i-x_0)^2l_i(x_0)+R \end{align}$
又因为
$b (x 0) T = b (x 0) T (B T W (x 0) B) - 1 B T W (x 0) B (1, x 0) = b (x 0) T (B T W (x 0) B) - 1 B T W (x 0) [1, x 0]$ $\begin{align} &b(x_0)^T=b(x_0)^T(B^TW(x_0)B)^{-1}B^TW(x_0)B\\ &(1,x_0)=b(x_0)^T(B^TW(x_0)B)^{-1}B^TW(x_0)[1,x_0] \end{align}$
所以
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1 x 0 = b (x 0) T (B T W (x 0) B) - 1 B T W (x 0) 1 = \sum i = 1 N l i (x 0) = b (x 0) T (B T W (x 0) B) - 1 B T W (x 0) x 0 = \sum i = 1 N l i (x 0) x i$ $\left \{ \begin{align} 1&=b(x_0)^T(B^TW(x_0)B)^{-1}B^TW(x_0)1=\sum^N_{i=1}l_i(x_0)\\ x_0&=b(x_0)^T(B^TW(x_0)B)^{-1}B^TW(x_0)x_0=\sum^N_{i=1}l_i(x_0)x_i\\ \end{align} \right.$
所以
$\sum i = 1 N l i (x 0) = 1 \sum i = 1 N (x i - x 0) l i (x 0) = 0$ $\begin{align} &\sum^N_{i=1}l_i(x_0)=1\\ &\sum^N_{i=1}(x_i-x_0)l_i(x_0)=0 \end{align}$
所以
$b i a s = E f^(x 0) - f^(x 0) = f '' ( x 0 ) 2 \sum i = 1 N (x i - x 0) 2 l i (x 0) + R$ $\begin{align} bias&=E\hat f(x_0)-\hat f(x_0)\\ &=\frac{f''(x_0)}{2}\sum^N_{i=1}(x_i-x_0)^2l_i(x_0)+R \end{align}$
所以我们可以看到 $bias$ 依赖于二阶及以上导数。