class sklearn.cluster.AgglomerativeClustering(n_clusters = 2,affinity =' euclidean ',memory = None,connectivity = None,compute_full_tree ='auto',linkage ='ward',pooling_func ='deprecated',distance_threshold = None )
| 参数: |
n_clusters : int或None,可选(默认= 2) 要查找的集群数。必须 affinity : string或callable,默认值:“euclidean” 用于计算链接的度量标准。可以是“euclidean”,“l1”,“l2”,“manhattan”,“cosine”或“precomputed”。如果联系是“病房”,则只接受“欧几里德”。如果“预先计算”,则需要距离矩阵(而不是相似度矩阵)作为拟合方法的输入。 memory : 具有joblib.Memory接口的None,str或object,可选 用于缓存树计算的输出。默认情况下,不进行缓存。如果给出了字符串,则它是缓存目录的路径。 连接 : 类似数组或可调用,可选 连通矩阵。为每个样本定义遵循给定数据结构的相邻样本。这可以是连接矩阵本身或可调用的数据,将数据转换为连接矩阵,例如从kneighbors_graph派生。默认值为None,即层次聚类算法是非结构化的。 compute_full_tree : bool或'auto'(可选) 在n_clusters处尽早停止构建树。如果簇的数量与样本数量相比不小,则这对于减少计算时间是有用的。仅在指定连接矩阵时,此选项才有用。还要注意,当改变簇的数量并使用高速缓存时,计算完整树可能是有利的。必须 link : {“ward”,“complete”,“average”,“single”},可选(默认=“病房”) 使用哪种链接标准。连接标准确定观察组之间使用的距离。该算法将合并最小化该标准的簇对。
pooling_func : callable,default ='deprecated' 忽略。 从版本0.20 distance_threshold : float,optional(默认=无) 链接距离阈值高于该阈值,群集将不会合并。如果没有 版本0.21中的新功能。 |
|---|
本文介绍如何利用SKlearn库中的AgglomerativeClustering类进行层次聚类,重点讨论了参数设置,如亲和力、连接性、链接类型等在聚类过程中的影响。
3万+





