周志华机器学习笔记-C9

最新推荐文章于 2025-06-13 16:48:52 发布

Guy Black

最新推荐文章于 2025-06-13 16:48:52 发布

阅读量411

点赞数 4

分类专栏：周志华《机器学习》笔记文章标签：机器学习笔记算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_61986755/article/details/142692299

版权

周志华《机器学习》笔记专栏收录该内容

16 篇文章

订阅专栏

聚类

典型无监督学习，旨在通过数据集本身属性发掘内在（分类）规律。

一、聚类及其参数指标

1、聚类任务：无监督学习的一种，试图将数据集中的样本划分为无交并子集“簇”，以为分析数据分布或其他学习任务打下分类基础。

2、性能度量：分为外部和内部指标。外部指标是指和预先给定分类越接近越好，内部指标对分类要求自然是组内越密越好，组间越稀越好。外部指标定义两两样本对的若干集合，表示是否在聚类分类和参考分类中归属与同一簇，由此定义出JC、FMI、RI用来刻画聚类和参考的相似度。内部指标根据样本距离定义簇内中心点、簇内样本间平均距离、簇间中心距、簇间最近距离等，由此定义出DBI、DI用以刻画簇内相对密度（或簇间相对稀疏度）。

3、距离度量：距离一般定义：非负、对称、三角。若属性有序（包括离散有序），常用Minkowski距离即为p-范数，p=2即为欧氏距离，p=1即为曼哈顿距离。若属性无序，常用VDM距离，并整理到Minkowski距离中。若属性重要性不一，加权即可。

二、原型聚类

聚类算法的一种，假设聚类结构能通过一组原型刻画。

1、kMeans：k均值算法，目标为最小化簇内点到均值点的平方误差。采用贪心法，任意选取k个原型向量，遍历所有点，向k个原型邻近合并为k个簇，更新原型为簇均值，再循环操作直到簇结构不变。

2、LVQ学习向量量化：人为设置标签，任选k个带标签原型向量，随机一个样本，将其与最近原型向量对比标签，相同接近，相反远离，足够多轮后将原型最近的一批样本划分为同一簇。

3、高斯混合聚类：认为数据由k个n维高斯分布组成，其按权重α混合形成总体混合高斯分布，若设法求出k个高斯分布参数，即可通过xj相对于第i个高斯分布的后验概率最大确定xj属于第i个聚类。迭代内容为k个高斯分布的参数，优化目标是最大化样本点归属各高斯分布的对数似然概率。

三、密度聚类

聚类算法的一种，假设聚类结构能通过样本分布紧密程度确定。

1、邻域参数：核心对象即为邻域内至少包含MinPts个样本的样本，样本间密度直达即某样本位于核心对象的邻域内，密度可达即存在密度直达的序列，密度相连即存在密度可达的序列。

2、DBSCAN：选出所有核心对象为一集合，以任一核心对象为出发点，找出密度可达所有样本形成聚类簇，再将涉及到的核心对象从集合去除，循环操作。

四、层次聚类

聚类算法的一种，试图再不同层次对数据集划分，形成树形聚类结构。

1、AGNES：每个样本视为一个初始簇类，算法每一步找出距离最近的两个簇进行合并，直到达到预设簇类个数。层次图如图，常为逐步增加距离合并簇类，形成距离-簇类图，再在某一距离下以虚线划分获得指定个数下的簇类。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。