多元核密度估计
承接上一篇文章,接着讨论多维随机变量情况下的核密度估计。
定义
给定一组样本X={x1,x2,⋯ ,xn}\bm{X}=\{ \bm{x}_1,\bm{x}_2,\cdots,\bm{x}_n \}X={x1,x2,⋯,xn}且都是ddd维的向量,并且取自同一个连续分布f(x)f(\bm{x})f(x),则在任意点x\bm{x}x处的核密度估计为:
fh(x)^=1n∑i=1n1hdK(x−Xih)
\hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h^d} K\left( \frac{\bm{x-\bm{X}_i}}{h} \right)
fh(x)^=n1i=1∑nhd1K(hx−Xi)
f(x)f(\bm{x})f(x)是一个ddd维随机变量的密度函数.K(⋅)K(\cdot)K(⋅)是定义在ddd维空间上的核函数,即K:Rd→R+K:\reals^d \to \reals_+K:Rd→R+,并满足:
K(x)⩾0,∫K(x)du=1.
K(\bm{x}) \geqslant 0, \int K(\bm{x})\rm{d}\bm{u}=1.
K(x)⩾0,∫K(x)du=1.
更一般的形式有:
fh(x)^=1n∑i=1n1h1⋅⋯⋅hnK(x1−X1h1,⋯ ,xn−Xnhn)
\hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h_1\cdot \dots \cdot h_n} K\left( \frac{\bm{x}_1-\bm{X}_1}{h_1},\cdots, \frac{\bm{x}_n-\bm{X}_n}{h_n} \right)
fh(x)^=n1i=1∑nh1⋅⋯⋅hn1K(h1x1−X1,⋯,hnxn−Xn)
最一般的形式有:
fH^(x)=1n∑i=1n1det(H)K{H−1(x−Xi)}
\hat{f_\bold{H}}(\bm{x})=\frac{1}{n} \sum_{i=1}^n \frac{1}{\rm{det}(\bold{H})}K\{ \bold{H}^{-1}(\bm{x}-\bm{X}_i) \}
fH^(x)=n1i=1∑ndet(H)1K{H−1(x−Xi)}
其中H\bold{H}H是对称的窗宽矩阵.
核函数的类型
设随机变量u={u1,⋯ ,ud}T\bm{u}=\{ u_1,\cdots,u_d\}^{\rm{T}}u={u1,⋯,ud}T
- 乘积核
K(u)=K(u1)⋅…⋅K(ud) K(\bm{u})=K(u_1)\cdot \ldots \cdot K(u_d) K(u)=K(u1)⋅…⋅K(ud) - 放射或对称核
K(u)=K(∥u∥)∫RdK(∥u∥)du其中(∥u∥=定义uTu) K(\bm{u})=\frac{K(\lVert \bm{u}\rVert)}{\int_{\R^d}K(\lVert \bm{u}\rVert)d\bm{u}} 其中(\lVert \bm{u}\rVert\stackrel{定义}{=}\sqrt{\bm{u}^{\rm{T}}\bm{u}}) K(u)=∫RdK(∥u∥)duK(∥u∥)其中(∥u∥=定义uTu)
最优窗宽
参照一维条件下的最优窗宽选择办法,对高维情况采用多维泰勒展开,有:
Bias≈12h2α∇2f(x),V(f(x)^)≈n−1h−dβf(x)
\rm{Bias} \approx \frac{1}{2} \mathit{h}^2 \alpha \nabla^2 \mathit{f}(\bm{x}),
V(\hat{f(\bm{x})})\approx n^{-1}h^{-d}\beta f(x)
Bias≈21h2α∇2f(x),V(f(x)^)≈n−1h−dβf(x)
其中α=∫x2K(x)dx,β=∫K(x2)dx\alpha=\int \bm{x}^2K(\bm{x})dx,\beta=\int K(\bm{x}^2)d\bm{x}α=∫x2K(x)dx,β=∫K(x2)dx.因此可以得到渐进积分均方误:
AMISE=14h4α2∫∇2f(x)dx+n−1h−hβ.
\bold{AMISE}=\frac{1}{4}h^4\alpha^2\int \nabla^2f(\bm{x})d\bm{x}+n^{-1}h^{-h}\beta.
AMISE=41h4α2∫∇2f(x)dx+n−1h−hβ.
由此最优窗宽为:
hopt={dβα−2(∫∇2f(x)dx)}1/(d+4)n−1/(d+4)
h_{opt}=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2f(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}n^{-1/(d+4)}
hopt={dβα−2(∫∇2f(x)dx)}1/(d+4)n−1/(d+4)
由于上述f(x)f(\bm{x})f(x)是未知的,当采用多维正态分布密度函数Φ(x)\varPhi(\bm{x})Φ(x)时,最优窗口为:
hopt=T(K)n−1/(d+4)
h_{opt}=T(K)n^{-1/(d+4)}
hopt=T(K)n−1/(d+4)
其中T(K)={dβα−2(∫∇2Φ(x)dx)}1/(d+4)T(K)=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2\varPhi(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}T(K)={dβα−2(∫∇2Φ(x)dx)}1/(d+4).
对于T(K)T(K)T(K),在知道估计中的核函数类型后,可以计算出来,并得到最优窗宽hopth_{opt}hopt.以下给出不同核函数的T(K)T(K)T(K):
KernelKernelKernel | ddd | T(K)T(K)T(K) |
---|---|---|
KnK_nKn高斯核 | 2 | 1 |
KnK_nKn高斯核 | d | {4/(d+2)1/(d+4)}\{4/(d+2)^{1/(d+4)}\}{4/(d+2)1/(d+4)} |
KeK_eKe(Epanechinikow) | 2 | 2.40 |
KeK_eKe(Epanechinikow) | d | {8cd−1(d+4)(2π)}1/(d+4)\{8c_d^{-1}(d+4)(2\sqrt{\pi}) \}^{1/(d+4)}{8cd−1(d+4)(2π)}1/(d+4) |
K2K_2K2二次 | 2 | 2.78 |
K3K_3K3三次 | 2 | 3.12 |