机器学习中的聚类、scikit-learn 使用及特征工程
1. 聚类算法概述
在数据探索阶段,聚类算法是非常有帮助的工具。常见的聚类算法有 k-Means、DBSCAN 和 Agglomerative Clustering。这些算法都能控制聚类的粒度,但各有特点。
1.1 聚类算法对比
| 算法名称 | 控制聚类粒度方式 | 特点 |
|---|---|---|
| k-Means | 直接指定所需聚类的数量 | 可以用聚类均值来描述聚类,也可看作一种分解方法,每个数据点由其聚类中心表示 |
| DBSCAN | 通过 eps 参数定义邻近度,间接影响聚类大小 | 能检测未分配到任何聚类的“噪声点”,自动确定聚类数量,允许复杂的聚类形状,但有时会产生大小差异很大的聚类 |
| Agglomerative Clustering | 直接指定所需聚类的数量 | 可以提供数据的完整层次划分,可通过树状图轻松检查 |
1.2 聚类示例代码及分析
以下是一个关于聚合聚类的代码示例:
mask = labels_a
超级会员免费看
订阅专栏 解锁全文
1002

被折叠的 条评论
为什么被折叠?



