多维核密度估计

本文深入探讨了多维随机变量情况下的核密度估计方法,详细解释了核密度估计的定义及公式,包括核函数的选择和最优窗宽的计算,并提供了不同类型的核函数及其对应的T(K)值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

多元核密度估计

承接上一篇文章,接着讨论多维随机变量情况下的核密度估计。

定义

给定一组样本X={x1,x2,⋯ ,xn}\bm{X}=\{ \bm{x}_1,\bm{x}_2,\cdots,\bm{x}_n \}X={x1,x2,,xn}且都是ddd维的向量,并且取自同一个连续分布f(x)f(\bm{x})f(x),则在任意点x\bm{x}x处的核密度估计为:
fh(x)^=1n∑i=1n1hdK(x−Xih) \hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h^d} K\left( \frac{\bm{x-\bm{X}_i}}{h} \right) fh(x)^=n1i=1nhd1K(hxXi)
f(x)f(\bm{x})f(x)是一个ddd维随机变量的密度函数.K(⋅)K(\cdot)K()是定义在ddd维空间上的核函数,即K:Rd→R+K:\reals^d \to \reals_+K:RdR+,并满足:
K(x)⩾0,∫K(x)du=1. K(\bm{x}) \geqslant 0, \int K(\bm{x})\rm{d}\bm{u}=1. K(x)0,K(x)du=1.
更一般的形式有:
fh(x)^=1n∑i=1n1h1⋅⋯⋅hnK(x1−X1h1,⋯ ,xn−Xnhn) \hat{f_h({\bm{x}})}=\frac{1}{n}\sum_{i=1}^n \frac{1}{h_1\cdot \dots \cdot h_n} K\left( \frac{\bm{x}_1-\bm{X}_1}{h_1},\cdots, \frac{\bm{x}_n-\bm{X}_n}{h_n} \right) fh(x)^=n1i=1nh1hn1K(h1x1X1,,hnxnXn)
最一般的形式有:
fH^(x)=1n∑i=1n1det(H)K{H−1(x−Xi)} \hat{f_\bold{H}}(\bm{x})=\frac{1}{n} \sum_{i=1}^n \frac{1}{\rm{det}(\bold{H})}K\{ \bold{H}^{-1}(\bm{x}-\bm{X}_i) \} fH^(x)=n1i=1ndet(H)1K{H1(xXi)}
其中H\bold{H}H是对称的窗宽矩阵.

核函数的类型

设随机变量u={u1,⋯ ,ud}T\bm{u}=\{ u_1,\cdots,u_d\}^{\rm{T}}u={u1,,ud}T

  • 乘积核
    K(u)=K(u1)⋅…⋅K(ud) K(\bm{u})=K(u_1)\cdot \ldots \cdot K(u_d) K(u)=K(u1)K(ud)
  • 放射或对称核
    K(u)=K(∥u∥)∫RdK(∥u∥)du其中(∥u∥=定义uTu) K(\bm{u})=\frac{K(\lVert \bm{u}\rVert)}{\int_{\R^d}K(\lVert \bm{u}\rVert)d\bm{u}} 其中(\lVert \bm{u}\rVert\stackrel{定义}{=}\sqrt{\bm{u}^{\rm{T}}\bm{u}}) K(u)=RdK(u)duK(u)(u=uTu)
    在这里插入图片描述

最优窗宽

参照一维条件下的最优窗宽选择办法,对高维情况采用多维泰勒展开,有:
Bias≈12h2α∇2f(x),V(f(x)^)≈n−1h−dβf(x) \rm{Bias} \approx \frac{1}{2} \mathit{h}^2 \alpha \nabla^2 \mathit{f}(\bm{x}), V(\hat{f(\bm{x})})\approx n^{-1}h^{-d}\beta f(x) Bias21h2α2f(x),V(f(x)^)n1hdβf(x)
其中α=∫x2K(x)dx,β=∫K(x2)dx\alpha=\int \bm{x}^2K(\bm{x})dx,\beta=\int K(\bm{x}^2)d\bm{x}α=x2K(x)dx,β=K(x2)dx.因此可以得到渐进积分均方误:
AMISE=14h4α2∫∇2f(x)dx+n−1h−hβ. \bold{AMISE}=\frac{1}{4}h^4\alpha^2\int \nabla^2f(\bm{x})d\bm{x}+n^{-1}h^{-h}\beta. AMISE=41h4α22f(x)dx+n1hhβ.
由此最优窗宽为:
hopt={dβα−2(∫∇2f(x)dx)}1/(d+4)n−1/(d+4) h_{opt}=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2f(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}n^{-1/(d+4)} hopt={dβα2(2f(x)dx)}1/(d+4)n1/(d+4)
由于上述f(x)f(\bm{x})f(x)是未知的,当采用多维正态分布密度函数Φ(x)\varPhi(\bm{x})Φ(x)时,最优窗口为:
hopt=T(K)n−1/(d+4) h_{opt}=T(K)n^{-1/(d+4)} hopt=T(K)n1/(d+4)
其中T(K)={dβα−2(∫∇2Φ(x)dx)}1/(d+4)T(K)=\left\{ d\beta\alpha^{-2} \left( \int\nabla^2\varPhi(\bm{x})\rm{d}\bm{x} \right ) \right\}^{1/(d+4)}T(K)={dβα2(2Φ(x)dx)}1/(d+4).
对于T(K)T(K)T(K),在知道估计中的核函数类型后,可以计算出来,并得到最优窗宽hopth_{opt}hopt.以下给出不同核函数的T(K)T(K)T(K):

KernelKernelKerneldddT(K)T(K)T(K)
KnK_nKn高斯核21
KnK_nKn高斯核d{4/(d+2)1/(d+4)}\{4/(d+2)^{1/(d+4)}\}{4/(d+2)1/(d+4)}
KeK_eKe(Epanechinikow)22.40
KeK_eKe(Epanechinikow)d{8cd−1(d+4)(2π)}1/(d+4)\{8c_d^{-1}(d+4)(2\sqrt{\pi}) \}^{1/(d+4)}{8cd1(d+4)(2π)}1/(d+4)
K2K_2K2二次22.78
K3K_3K3三次23.12
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Infinity343

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值