59、密度估计与密度聚类方法详解

密度估计与密度聚类方法详解

1. 密度估计

1.1 定义

给定一组观测值 (x_1, \cdots, x_N),它们是来自概率密度函数 (f_X(x)) 的随机样本,密度估计的目标是用 (\hat{f}_X(x_0)) 来近似 (f_X(x)) 。

1.2 简单估计方法 - 直方图

一种简单的估计概率密度函数的方法是根据从总体中抽取的随机样本绘制直方图。通常,数据值的范围会被细分为等大小的区间或 bins。直方图对函数的估计效果取决于 bin 的宽度和边界的位置。通过修改直方图,使得估计不使用固定边界,可以在一定程度上改善估计效果。即,在某一点对概率密度函数的估计以该点为邻域的中心。根据 Hastie 等人(2009)的方法,估计可以表示为:
(\hat{f}_X(x_0) = \frac{#x_i \in N(x_0)}{N \cdot \epsilon})
其中 (x_1, \cdots, x_N) 是从概率密度函数 (f_X(x)) 中抽取的随机样本,(\hat{f}_X(x_0)) 是 (f_X) 在点 (x_0) 处的估计值。(N(x_0)) 是 (x_0) 周围宽度为 (\epsilon) 的邻域。也就是说,该估计是落在 (x_0) 邻域内的值的数量的归一化计数。

1.3 核函数估计

上述估计仍然像直方图一样有起伏。使用核函数可以获得更平滑的近似。样本中的每个 (x_i) 都与一个核函数(通常是高斯核函数)相关联。公式(1)中的计数被应用于 (x_0) 邻域内点的核函数之和所取代:
(\hat{f} X(x_0) = \frac{1}{N \cdot \ep

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值