机器学习深版07:聚类

本文深入探讨无监督学习中的聚类算法,包括k-Means的修正与公式化解释,层次聚类的两种类型,以及DBSCAN和谱聚类的原理。同时,介绍了衡量聚类效果的指标和标签传递算法,揭示了在实际问题中如何选择合适的聚类方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习深版07:聚类

1. 无监督学习

相比之前的有监督学习不同。其实是做一个降维。

2. 聚类

在这里插入图片描述

1. 相似度/距离计算方法总结

在这里插入图片描述
余弦相似度与Pearson相似系数本质上是一样的:
在这里插入图片描述

2. k-Means算法

在这里插入图片描述
在这里插入图片描述

1.修正

在这里插入图片描述
在这里插入图片描述
希望初始化聚类中心的时候距离就比较远。
k-Means++,应用权值和距离更新的一些方法,实现了初始化聚类中心点的选择。

2.公式化解释

在这里插入图片描述
上面本质是批量梯度下降算法,用随机梯度下降,如果样本量巨大,可以考虑下面的,如下图:
在这里插入图片描述

3. 衡量指标

4. 已知实际的结果

在这里插入图片描述
ARI初始想法很简单,但是公式挺复杂,使他映射到0–1
在这里插入图片描述
AMI:还是利用上面的矩阵,计算MI互信息,然后计算NMI(正则化的互信息),卡一下它的范围,变成AMI。
在这里插入图片描述

2. 没有标记结果的判断

在这里插入图片描述
在这里插入图片描述

3. 层次聚类

1. 两种分类

凝聚式用的更多,学科划分中用到的很多。
在这里插入图片描述
在这里插入图片描述

2.距离的定义

最小距离:会出现链状结构
最大距离:一些狭长的簇不适用
在这里插入图片描述
在这里插入图片描述

4.密度聚类

在这里插入图片描述

1.DBSCAN

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.密度最大值算法

在这里插入图片描述
在这里插入图片描述
高局部密度点:比我有钱的最近的人的距离
在这里插入图片描述
在这里插入图片描述

5.谱聚类

1.数学知识

  1. 实对称矩阵的特征值是实数
  2. 实对称矩阵不同的特征值对应的特征向量是正交的

2.整体过程

和PCA相似
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.分类

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.理解上

在这里插入图片描述

5.进一步思考

在这里插入图片描述

6.标签传递算法

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值