非参数概率密度估计方法详解
1. 平滑参数与非参数技术概述
在进行概率分布相关的研究时,存在一个自然的“平滑”参数,它描述了局部区域的空间范围,例如在某些情况下表现为区间宽度。这个平滑参数的值至关重要,既不能过大也不能过小,才能获得良好的结果。这与多项式曲线拟合中模型复杂度的选择类似,多项式的次数或者正则化参数的值在某个中间值时效果最佳,既不过大也不过小。
基于这些认识,我们接下来讨论两种广泛使用的非参数密度估计技术:核估计器和最近邻法。与简单的直方图模型相比,这两种方法在处理维度方面具有更好的扩展性。
2. 核密度估计器原理
假设观测值是从某个未知的概率密度函数 (p(x)) 中抽取的,该函数位于 (D) 维欧几里得空间中,我们希望估计 (p(x)) 的值。从局部性的角度出发,考虑一个包含 (x) 的小区域 (R),该区域的概率质量为:
[P = \int_{R} p(x) dx \quad (2.242)]
假设我们收集了一个包含 (N) 个观测值的数据集,每个数据点落入区域 (R) 的概率为 (P),那么落入该区域的点的总数 (K) 服从二项分布:
[Bin(K|N, P) = \frac{N!}{K!(N - K)!}P^K(1 - P)^{N - K} \quad (2.243)]
根据相关公式,我们可以得到落入该区域的点的平均比例为 (E[K/N] = P),方差为 (var[K/N] = P(1 - P)/N)。当 (N) 很大时,这个分布会在均值附近急剧峰值,因此 (K \approx NP \quad (2.244))。
如果我们进一步假设区域 (R) 足够小
超级会员免费看
订阅专栏 解锁全文
5266

被折叠的 条评论
为什么被折叠?



