机器学习中的聚类、特征工程与数据表示
聚类方法概述
聚类是一种无监督学习方法,在数据分析的探索阶段非常有用。这里介绍三种常见的聚类算法:k-means、DBSCAN 和层次聚类(agglomerative clustering)。
三种聚类算法的特点
- 控制粒度 :三种算法都能控制聚类的粒度。k-means 和层次聚类允许指定所需的聚类数量,而 DBSCAN 则通过
eps参数定义邻近度,间接影响聚类大小。 - 适用场景 :它们都适用于大型真实数据集,相对容易理解,并且可以将数据聚成多个簇。
各算法的优势
- k-means :可以通过聚类中心来描述聚类。它也可以被视为一种分解方法,每个数据点由其所属聚类的中心表示。
- DBSCAN :能够检测未分配到任何聚类的“噪声点”,并有助于自动确定聚类的数量。与其他两种方法不同,它可以处理复杂的聚类形状,如在
two_moons示例中所示。不过,DBSCAN 有时会产生大小差异很大的聚类,这可能是优点也可能是缺点。 - 层次聚类 :可以提供数据的完整层次划分,通过树状图(dendrogram)可以轻松检查这些划分。
以下是一个简单的聚类示例(以 k-means 为例):
超级会员免费看
订阅专栏 解锁全文
3418

被折叠的 条评论
为什么被折叠?



