sklearn.cluster.affinity_propagation()结构、用法及AP算法详解

最新推荐文章于 2024-06-15 23:18:53 发布

原创

最新推荐文章于 2024-06-15 23:18:53 发布 · 6.9k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#cluster #affinity_propagation #吸引子传播 #聚类

sklearn.cluster.affinity_propagation()官方文档

sklearn.cluster.affinity_propagation(S, preference=None, convergence_iter=15, max_iter=200, damping=0.5, copy=True, verbose=False, return_n_iter=False)

Affinity Propagation 算法比较有趣的是可以根据提供的数据决定聚类的数目。因此有两个比较重要的参数:

preference: 参考度或称为偏好参数：是相似度矩阵中横轴纵轴索引相同的点，如s(i,i)，若按欧氏距离计算其值应为0，但在AP聚类中其表示数据点i作为聚类中心的程度，因此不能为0。迭代开始前假设所有点成为聚类中心的能力相同，因此参考度一般设为相似度矩阵中所有值得最小值或者中位数，但是参考度越大则说明个数据点成为聚类中心的能力越强，则最终聚类中心的个数则越多；
damping factor: 阻尼因子,用于减少吸引信息和归属信息以防止更新减少吸引度和归属度信息时数据振荡。

AP聚类算法主要的缺点是算法的复杂度。 AP聚类算法的时间复杂度是 $O(N^2T)$ , 其中 N 是样本的个数， T 是收敛之前迭代的次数。如果使用密集的相似性矩阵空间复杂度是 $O(N^2)$ ，如果使用稀疏的相似性矩阵空间复杂度可以降低。这使得AP聚类最适合中小型数据集(small to medium sized datasets)。

其他参数：

damping=0.5：阻尼系数，设置为 0.5 到 1 之间；
max_iter=200：最大迭代次数；
convergence_iter=15：聚类个数连续 convergence_iter 次迭代都不再改变，就停止迭代；
copy=True：在 scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据进行 copy 操作，以便不修改用户的输入数据；
preference=None： array-like, shape (n_samples,) 或者 float，如果不指定，则都设为相似度矩阵中的中位数；
affinity=’euclidean’： string，“precomputed” 或者 “euclidean”，“euclidean” 采用负的欧几里得距离（class中的参数）

verbose=False： int 类型，是否输出详细信息

函数返回结果：

cluster_centers_indices : array, shape (n_clusters,) 聚类中心在所有数据中的索引，聚类中心是已有数据点。

labels : array, shape (n_samples,) 聚类标签，每个记录对应的种类，默认是从0开始的数字

n_iter : int 运行的迭代次数，只有 return_n_iter参数设置维True时才返回。