13、机器学习中的聚类、特征工程与数据表示

机器学习中的聚类、特征工程与数据表示

聚类方法概述

聚类是一种无监督学习方法,在数据分析的探索阶段非常有用。这里介绍三种常见的聚类算法:k-means、DBSCAN 和层次聚类(agglomerative clustering)。

三种聚类算法的特点
  • 控制粒度 :三种算法都能控制聚类的粒度。k-means 和层次聚类允许指定所需的聚类数量,而 DBSCAN 则通过 eps 参数定义邻近度,间接影响聚类大小。
  • 适用场景 :它们都适用于大型真实数据集,相对容易理解,并且可以将数据聚成多个簇。
各算法的优势
  • k-means :可以通过聚类中心来描述聚类。它也可以被视为一种分解方法,每个数据点由其所属聚类的中心表示。
  • DBSCAN :能够检测未分配到任何聚类的“噪声点”,并有助于自动确定聚类的数量。与其他两种方法不同,它可以处理复杂的聚类形状,如在 two_moons 示例中所示。不过,DBSCAN 有时会产生大小差异很大的聚类,这可能是优点也可能是缺点。
  • 层次聚类 :可以提供数据的完整层次划分,通过树状图(dendrogram)可以轻松检查这些划分。

以下是一个简单的聚类示例(以 k-means 为例):


                
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值