机器学习-周志华》读书笔记-第9章 聚类

本文深入探讨了聚类算法,包括K均值、学习向量量化(LVQ)、高斯混合模型、EM算法、密度聚类及层次聚类,解析了各种算法的工作原理、优缺点及其应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

聚类简介

当所给数据记录没有类别标签时而又想通过对样本的观察与训练得到分类标签与模型时,需要用到聚类模型。
将分成的一类一类称为“簇”
聚类目标: 簇内相似度高而簇间相似度低
聚类问题涉及到的两个基本问题是:1、性能度量 2、距离计算
1、性能度量,衡量模型泛化能力的指标(可类比正常模型的目标函数)
1-1 外部指标:将本模型分类结果与参考模型分类结果作比较
1-2 内部指标:比较本模型内部簇内相似度和簇间相似度等指标
2、距离计算
2-1 有序属性:闵可夫斯基距离
常见的曼哈顿距离(一维),欧氏距离(二维)均属于
2-2 无序属性: VDM
(有兴趣可自我查阅)主要比较样本中同一属性不同值在不同划分类中的分布情况
无序属性时不支持距离属性中的直递性

K均值算法

原理简介
1.预先确定聚类簇数
2.初始随机选择k个样本作为聚类中心
3.计算样本与每个聚类中心的距离,距离谁最近则归入哪一类聚类中心
4.更新每一类聚类中心为当前所有成员的均值
5.重新计算样本与聚类中心距离以重新归类
6.重复3-5的过程直至聚类中心不变

缺点:预定义簇数K很重要;适合圆型聚类,在带状聚类上效果表现差

学习向量量化(LVQ)

数据样本为有标签样本,LVQ可自定义想要的分类结果
(eg. 原本的分类是A,B,C LVQ分类结果为A,A,B,C,C,相当于再一步细分类)
原理简介
1.设定聚类目标为t1,t1,…,tk(t属于类别标签)
2.每一个聚类目标从对应类别标签中随机选择一样本作为该聚类目标的原型向量
3.计算样本与各原型向量的距离,找出距离最近的原型向量
4.判断:
if 若该样本与原型向量标签相同:
则将原型向量调整为靠近该样本(缩小两者之间的距离,程度自定义)
else:
则将原型向量调整为远离该样本
5.重复上述步骤直至达到迭代次数或原型向量趋于稳定

若同一聚类目标中的样本全用该类别原型向量表示则可实现数据的“有损压缩”,这称为向量量化,算法由此得名

高斯混合聚类

采用概率模型来表达聚类原型,假设样本由高斯混合分布产生(即多个高斯分布产生),则在分类时首先需要知道样本由哪一个高斯分布产生(不同的分布参数不同);其次可根据该高斯分布的参数计算概率值。
举例
在这里插入图片描述
很明显,上面的例子中数据标签男生/女生是一个隐变量
在这里插入图片描述
在这里插入图片描述
极大似然估计方法求取该目标函数时难以求解,因此此处引入EM算法

EM算法

1.给定初始pai,miu,sigmua值
2.计算gama值

由上面的公式1可计算得到每个样本由第k个组份生成的概率
3.对数似然函数对miu求偏导可得
在这里插入图片描述
4.对sigmua求偏导可得
在这里插入图片描述
5.同时根据计算值更新pai值即各类成分的先验概率
在这里插入图片描述
重复步骤2-5直至达到迭代停止条件
思路简介:
EM算法其实就是E和M两个步骤相互迭代的算法。上述步骤中,第5步其实就是我们常说的E步,3-4是M步,也就是最大似然步骤。因为未知隐变量的问题才使得上述目标函数难解,因此添加E步骤, 用于隐变量值的更新;E步骤之后隐变量假设已知,则此时可以根据极大似然求出高斯分布的参数,并根据参数值得到新的隐变量计算值;使用E步的隐变量更新公式得到新的隐变量值则可以新一步更新高斯分布参数。从而EM步骤交换迭代至结果值收敛。
此为一种理解方式,还有一种从Jenson不等式方面的理解方式可自行查阅,更为严密的推导方式。此方法为辅助理解方式。

密度聚类

从样本密度的角度考察样本之间的可连接性并基于可连接性不断扩展聚类簇以获得最终的聚类效果
原理简介:
1.初始化核心对象集合为空
2.计算每个样本的领域,若邻域样本个数达到要求则该样本加入核心对象集合
3.任取一核心对象:
选择由其密度可达的所有样本并构成一聚类簇
若有其余核心对象由其密度可达则将其从核心对象集合中删除
4.将该核心对象从集合中删除
5.重复3-4直至核心对象集合为空

层次聚类

可选择聚类成为任意多个簇
原理简介:
1.将每一个样本看做一个初始聚类簇
2.找出距离最近的两个聚类簇进行合并(簇距离计算方式可自定义)
3.将聚类簇重新编号
4.重复2-3直至到达设定聚类簇数

聚类应用

聚类方法可用于异常检测
(例如将远离所有簇中心的样本作为异常点)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值