自适应带宽的快速抗噪聚类算法:进化均值漂移(EMS)
传统均值漂移算法的局限
在数据处理中,均值漂移算法是一种常用的聚类方法。然而,当数据处于密度梯度较小的平稳区域时,均值漂移过程的收敛速度会变得很低。这是因为数据点的移动与密度梯度成正比,在平稳区域密度梯度小,数据点移动缓慢。
为了加速收敛速度,模糊均值漂移算法被提出,它在每次迭代中移动所有数据点。但该算法存在明显的缺点:在方差较大的方向上收敛更慢,常常会将一个聚类压缩成“线”,之后收敛速度大幅降低,还可能将“线”分割成许多小段,因此通常需要后续的合并处理。
进化均值漂移算法的创新点
为了克服传统算法的不足,提出了进化均值漂移(EMS)算法,它结合了均值漂移原理,但与现有的基于均值漂移的算法有本质区别,主要创新点如下:
1. 能量函数量化聚类状态 :定义了一个能量函数来描述数据点的紧凑性,为衡量聚类状态提供了定量方法。
2. 单点选择迭代 :与传统均值漂移算法中数据点静止或模糊均值漂移算法每次迭代更新所有数据点不同,EMS算法每次迭代只移动一个能使能量最大程度降低的选定数据点,从而实现指数级收敛。
3. 早期处理噪声数据 :能够自动在早期处理噪声数据,防止其误导其他数据的聚类过程。
4. 数据驱动的自适应带宽 :带宽估计基于样本点估计器进行初始化,并在进化过程中自适应更新,与模糊均值漂移不同,它是数据驱动的。
能量函数
能量函数用于评估数据集的紧凑性。对于包含 $N$ 个点
超级会员免费看
订阅专栏 解锁全文
1499

被折叠的 条评论
为什么被折叠?



