基于密度的聚类算法
1. 算法简介
基本思想:聚类中心的周围具有一些列低密度的点,并且它与其它高密度的点具有较大的间距。
The algorithm has its basis in the assumptions that cluster centers are surrounded by neighbors with lower local density and that they are at a relatively large distance from any points with a higher local density.
与降维算法LDA(线性判别分析)异曲同工之妙,它的降维思想是不同类别之间的类间间距大,同类数据之间类内间距小。算法的聚类中心选取原则如下:
- 聚类中心处的密度最大
- 聚类中心间的间距大
算法通过设计合适的密度函数与距离函数来实现无监督聚类。该算法不需要事先提供聚类中心的个数,能够自适应的选取聚类中心数目。
2. 参数说明及定义
数据维度说明
定义数据集的维度为 Rm⋅n R m ⋅ n ,其中 m m 为数据集数目, 为样本特征维度。dij d i j : 距离函数
衡量样本 xi x i 与样本 xj x j 之间的相似度,样本特征维度假设为 n n 。代码中以欧式距离作为距离函数,其定义如下:
密度函数(local density) p p :文中提供了两种计算方式
Cut off kernel