SKlearn库层次聚类凝聚

最新推荐文章于 2024-07-19 19:18:47 发布

翻译最新推荐文章于 2024-07-19 19:18:47 发布 · 2.3k 阅读

文章标签：

#AgglomerativeClustering

机器学习专栏收录该内容

44 篇文章

订阅专栏

本文介绍如何利用SKlearn库中的AgglomerativeClustering类进行层次聚类，重点讨论了参数设置，如亲和力、连接性、链接类型等在聚类过程中的影响。

class sklearn.cluster.AgglomerativeClustering（n_clusters = 2，affinity =' euclidean '，memory = None，connectivity = None，compute_full_tree ='auto'，linkage ='ward'，pooling_func ='deprecated'，distance_threshold = None ）

参数：

参数：	n_clusters ： int或None，可选（默认= 2）要查找的集群数。必须`None`如果 `distance_threshold`不是`None`。 affinity ： string或callable，默认值：“euclidean” 用于计算链接的度量标准。可以是“euclidean”，“l1”，“l2”，“manhattan”，“cosine”或“precomputed”。如果联系是“病房”，则只接受“欧几里德”。如果“预先计算”，则需要距离矩阵（而不是相似度矩阵）作为拟合方法的输入。 memory ：具有joblib.Memory接口的None，str或object，可选用于缓存树计算的输出。默认情况下，不进行缓存。如果给出了字符串，则它是缓存目录的路径。连接：类似数组或可调用，可选连通矩阵。为每个样本定义遵循给定数据结构的相邻样本。这可以是连接矩阵本身或可调用的数据，将数据转换为连接矩阵，例如从kneighbors_graph派生。默认值为None，即层次聚类算法是非结构化的。 compute_full_tree ： bool或'auto'（可选）在n_clusters处尽早停止构建树。如果簇的数量与样本数量相比不小，则这对于减少计算时间是有用的。仅在指定连接矩阵时，此选项才有用。还要注意，当改变簇的数量并使用高速缓存时，计算完整树可能是有利的。必须`True`如果 `distance_threshold`不是`None`。 link ： {“ward”，“complete”，“average”，“single”}，可选（默认=“病房”）使用哪种链接标准。连接标准确定观察组之间使用的距离。该算法将合并最小化该标准的簇对。 ward最小化被合并的集群的方差。平均值使用两组每次观察的平均距离。完整或最大连锁使用两组中所有观测值之间的最大距离。 single使用两组所有观测值之间的最小距离。 pooling_func ： callable，default ='deprecated' 忽略。从版本0.20`pooling_func`开始不推荐使用：已在0.20中弃用，将在0.22中删除。 distance_threshold ： float，optional（默认=无）链接距离阈值高于该阈值，群集将不会合并。如果没有`None`，`n_clusters`必须是`None`而且`compute_full_tree`必须是`True`。版本0.21中的新功能。

n_clusters ： int或None，可选（默认= 2）

要查找的集群数。必须None如果 distance_threshold不是None。

affinity ： string或callable，默认值：“euclidean”

用于计算链接的度量标准。可以是“euclidean”，“l1”，“l2”，“manhattan”，“cosine”或“precomputed”。如果联系是“病房”，则只接受“欧几里德”。如果“预先计算”，则需要距离矩阵（而不是相似度矩阵）作为拟合方法的输入。

memory ：具有joblib.Memory接口的None，str或object，可选

用于缓存树计算的输出。默认情况下，不进行缓存。如果给出了字符串，则它是缓存目录的路径。

连接：类似数组或可调用，可选

连通矩阵。为每个样本定义遵循给定数据结构的相邻样本。这可以是连接矩阵本身或可调用的数据，将数据转换为连接矩阵，例如从kneighbors_graph派生。默认值为None，即层次聚类算法是非结构化的。

compute_full_tree ： bool或'auto'（可选）

在n_clusters处尽早停止构建树。如果簇的数量与样本数量相比不小，则这对于减少计算时间是有用的。仅在指定连接矩阵时，此选项才有用。还要注意，当改变簇的数量并使用高速缓存时，计算完整树可能是有利的。必须True如果 distance_threshold不是None。

link ： {“ward”，“complete”，“average”，“single”}，可选（默认=“病房”）

使用哪种链接标准。连接标准确定观察组之间使用的距离。该算法将合并最小化该标准的簇对。