14、机器学习中的聚类、scikit-learn 使用及特征工程

机器学习中的聚类、scikit-learn 使用及特征工程

1. 聚类算法概述

在数据探索阶段,聚类算法是非常有帮助的工具。常见的聚类算法有 k-Means、DBSCAN 和 Agglomerative Clustering。这些算法都能控制聚类的粒度,但各有特点。

1.1 聚类算法对比

算法名称 控制聚类粒度方式 特点
k-Means 直接指定所需聚类的数量 可以用聚类均值来描述聚类,也可看作一种分解方法,每个数据点由其聚类中心表示
DBSCAN 通过 eps 参数定义邻近度,间接影响聚类大小 能检测未分配到任何聚类的“噪声点”,自动确定聚类数量,允许复杂的聚类形状,但有时会产生大小差异很大的聚类
Agglomerative Clustering 直接指定所需聚类的数量 可以提供数据的完整层次划分,可通过树状图轻松检查

1.2 聚类示例代码及分析

以下是一个关于聚合聚类的代码示例:

mask = labels_a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值