核密度估计(kernel density estimation,KDE)

本文深入探讨了核密度估计(Kernel Density Estimation)的基本原理及应用,对比了直方图估计方法,介绍了核密度估计如何通过平滑核函数解决概率密度函数的连续性和多维度问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核密度估计 (kernel density estimation)是在 概率论 中用来估计未知的 密度函数 ,属於 非参数检验方法 之一,由Rosenblatt (1955)和 Emanuel Parzen (1962)提出,又名 Parzen窗 (Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

统计分布密度估计是根据观测数据而对其假定的概率函数进行估测。核密度估计(KERNEL DENSITY ESTIMATE)属于一种非参数的估计方式:对某一已知的的密度函数,也就是KERNEL, 在观测点上平均化,以期得到一条光滑的估计曲线。

核密度估计VS直方图估计

直方图密度估计是较为传统的非参密度估计方法,通常我们的做法:

1 将数据值覆盖的数据区间分成几个等子区间(bin)。

2 一个数据值落到这个相应的子区间,这个子区间块的高度就相应的加一个单位的高度。

举个wiki上的例子:

现在有6个数据点:x1=-2.1, x2=-1.3, x3=-0.4, x4=1.9, x5=5.1, x6=6.2.我们取子区间的宽度为2,然后按照步骤2依次操作:

核密度估计 - zhuandi_h - scholar_fish

                                                                                            图1   构造的直方图

这样我们就利用样本数据构造出了概率密度函数。

但是从图中很显然,利用直方图估计密度函数还是有不完美的地方:

1 密度函数是不平滑的

2 密度函数受子区间宽度影响很大,如果我们取0.5,5等构造出的密度函数显然与宽度取2的有很大差异。

3 当数据维数是1,2维情况下,直方图的使用是很普遍的,但是在数据维数再增加时,这种方法就有局限性了。

而基于核密度估计的方法就没有直方图的3的局限性。而且当我们采用平滑的核时,概率密度函数也是平滑的;但是当我们采用非平滑核时,概率密度函数也还是不连续的。

kernel density estimation:

假设样本数据值在D维空间服从一个未知的概率密度函数,那么在区域R内的概率为:

核密度估计 - zhuandi_h - scholar_fish

概率P的含义就为每个样本数据点落入区域R的概率为P.假设N个样本数据点有K个落入了区域R,那么就应该服从二项分布:


核密度估计 - zhuandi_h - scholar_fish

由概率知识可知,在N样本数据很大时,K约等于N*P。而另一方面,我们假设区域R足够小的话,那么P约等于p(x)*V(V为区域R的空间) 。结合两个不等式子可得:

核密度估计 - zhuandi_h - scholar_fish(1)

     那么,接下来根据等式(1)来估算p(x)就有两条路可以走:

 1 K不变,我们通过决定区域V的大小来估算密度函数,那么我们就采用K-nearer-neighbour方法(这里不具体讨论)。

 2 V不变,我们通过决定K的大小来估算密度函数,那么我们采用kernel方法。

我们顺着2的思路走下去。

      假设区域R是一个以x为中心,边长为h的极小立方体(也就是V不变),我们现在要考虑的是落入立体体数据点的个数K。我们定义一个kernel函数:

核密度估计 - zhuandi_h - scholar_fish

该函数的意义是:数据维数为D维,当样本数据点落入小立方体时,函数值为1,其他情况下为0。所以落入立方提数据点的总个数K就可以表示为:

核密度估计 - zhuandi_h - scholar_fish(2)

那么根据等式(1),把等式(2)代入(1)中,可得:

核密度估计 - zhuandi_h - scholar_fish

此处的核密度估计 - zhuandi_h - scholar_fish

       上面我们说过,当kernel density estimation采用平滑核时,估计出的概率密度函数也是平滑的。我们很多情况下都采用Gaussin Kernel.

然而,核密度估计也不是很完美,还是存在着一些缺陷。我们想要获得比较好的概率密度函数,h带宽(bandwidth)的选择就是个很大的问题,太大或者太小都能很大程度上影响p(x)结果。

来个例子理解下(还是上文提到过的6个样本数据点):

假设我们采用Gaussin Kernel,方差取2.25.

核密度估计 - zhuandi_h - scholar_fish

注:蓝线代表估计出的p(x),每条红线代表一个样本数据点。

我们看p(x)是连续的,从某种程度上来说就相当于在估计值之外的区域进行插值处理。


转自:http://blog.163.com/zhuandi_h/blog/static/1802702882012111092743556/


在Python中,确定核密度估计Kernel Density Estimation,简称KDE)中的bin数量和宽度是一个重要步骤,因为它直接影响估计的准确性。以下是一些常用的方法: ### 1. 使用Scott公式 Scott公式是一种常用的方法,它根据数据的标准差和样本数量来计算bin的宽度。 ```python import numpy as np import matplotlib.pyplot as plt from scipy.stats import gaussian_kde # 生成一些示例数据 data = np.random.normal(0, 1, 1000) # 使用Scott公式计算bin宽度 std = np.std(data) n = len(data) bin_width = 3.5 * std / (n ** (1/3)) # 计算bin数量 bin_count = int((np.max(data) - np.min(data)) / bin_width) # 进行KDE kde = gaussian_kde(data) # 生成x轴数据 x = np.linspace(np.min(data), np.max(data), 1000) p = kde(x) # 绘制KDE plt.hist(data, bins=bin_count, density=True, alpha=0.5, label='Histogram') plt.plot(x, p, label='KDE') plt.legend() plt.show() ``` ### 2. 使用Silverman公式 Silverman公式是另一种常用的方法,它对Scott公式进行了改进。 ```python # 使用Silverman公式计算bin宽度 bin_width = (std * (4 / (3 * n)) ** 0.2) # 计算bin数量 bin_count = int((np.max(data) - np.min(data)) / bin_width) ``` ### 3. 使用交叉验证 交叉验证是一种更灵活的方法,可以通过最大化似然函数来选择最佳的bin宽度。 ```python # 使用交叉验证选择bin宽度 def cross_validation_bandwidth(data): from sklearn.model_selection import GridSearchCV grid = GridSearchCV(gaussian_kde, {'bw_method': np.linspace(0.1, 1.0, 30)}, cv=5) grid.fit(data) return grid.best_params_['bw_method'] bandwidth = cross_validation_bandwidth(data) kde = gaussian_kde(data, bw_method=bandwidth) p = kde(x) # 绘制KDE plt.hist(data, bins=bin_count, density=True, alpha=0.5, label='Histogram') plt.plot(x, p, label='KDE') plt.legend() plt.show() ``` ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值