高维数据密度峰聚类与多用户视角服务组合方法解析
高维数据密度峰聚类模型
在聚类分析中,聚类中心的选择是一个关键问题。对于点 $i$,$d_i$ 定义为所有局部密度大于点 $i$ 的点与点 $i$ 之间的最小距离,即:
[d_i = \max{d_{ij}}]
聚类中心的选择基于一个简单原则:聚类中心的局部密度大,且与其他点距离远。具体步骤如下:
1. 计算所有样本点的局部密度值 $\rho$ 和 $d$。
2. 选择 $\rho$ 和 $d$ 较大的点作为聚类中心。根据算法假设,局部最大密度点是中心点。
3. 确定聚类中心点后,根据与已判断点的距离集合,将其他样本点从近到远依次确定到各自的聚类中。判断标准是每个点的聚类是其邻域中最近且局部密度高于该点的点所在的聚类。
高维数据的密度峰聚类模型步骤
该模型主要包括三个部分:自动预处理选择初始聚类中心、聚类以及参数调整和异常点修正。具体步骤如下:
1. 数据初始化 :开始计算距离矩阵并确定相应的阈值。
2. 计算与归一化 :计算所有点的 $\rho$ 和 $d$,并对 $\rho$ 和 $d$ 进行归一化。找出 $d \times \rho$ 大于平均值一个标准差的点作为初始聚类中心。
3. 合并与分类 :合并相近的聚类中心,进行分类识别。
4. 距离分类 :根据与已分类点的距离,从近到远进行分类识别。
5. 修正与合并 :修正 $\r
超级会员免费看
订阅专栏 解锁全文
792

被折叠的 条评论
为什么被折叠?



