K-means与EM的关系

K-means与EM的关系,首先回到初始问题,我们目的是将样本分成k个类,其实说白了就是求每个样例x的隐含类别y,然后利用隐含类别将x归类。由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎么评价假定的好不好呢?我们使用样本的极大似然估计来度量,这里是就是x和y的联合分布P(x,y)了。如果找到的y能够使P(x,y)最大,那么我们找到的y就是样例x的最佳类别了,x顺手就聚类了。但是我们第一次指定的y不一定会让P(x,y)最大,而且P(x,y)还依赖于其他未知参数,当然在给定y的情况下,我们可以调整其他参数让P(x,y)最大。但是调整完参数后,我们发现有更好的y可以指定,那么我们重新指定y,然后再计算P(x,y)最大时的参数,反复迭代直至没有更好的y可以指定。

     这个过程有几个难点,第一怎么假定y?是每个样例硬指派一个y还是不同的y有不同的概率,概率如何度量。第二如何估计P(x,y),P(x,y)还可能依赖很多其他参数,如何调整里面的参数让P(x,y)最大。这些问题在以后的篇章里回答。

     这里只是指出EM的思想,E步就是估计隐含类别y的期望值,M步调整其他参数使得在给定类别y的情况下,极大似然估计P(x,y)能够达到极大值。然后在其他参数确定的情况下,重新估计y,周而复始,直至收敛。

     上面的阐述有点费解,对应于K-means来说就是我们一开始不知道每个样例clip_image020[10]对应隐含变量也就是最佳类别clip_image022[6]。最开始可以随便指定一个clip_image022[7]给它,然后为了让P(x,y)最大(这里是要让J最小),我们求出在给定c情况下,J最小时的clip_image014[10](前面提到的其他未知参数),然而此时发现,可以有更好的clip_image022[8](质心与样例clip_image020[11]距离最小的类别)指定给样例clip_image020[12],那么clip_image022[9]得到重新调整,上述过程就开始重复了,直到没有更好的clip_image022[10]指定。这样从K-means里我们可以看出它其实就是EM的体现,E步是确定隐含类别变量clip_image024[6],M步更新其他参数clip_image018[9]来使J最小化。这里的隐含类别变量指定方法比较特殊,属于硬指定,从k个类别中硬选出一个给样例,而不是对每个类别赋予不同的概率。总体思想还是一个迭代优化过程,有目标函数,也有参数变量,只是多了个隐含变量,确定其他参数估计隐含变量,再确定隐含变量估计其他参数,直至目标函数最优。

对比混合高斯模型和K-means可以发现,混合高斯使用了“软”指定,为每个样例分配的类别clip_image040[1]是有一定的概率的,同时计算量也变大了,每个样例i都要计算属于每一个类别j的概率。与K-means相同的是,结果仍然是局部最优解。对其他参数取不同的初始值进行多次计算不失为一种好方法。

参考资源链接:[MATLAB实现K-means聚类算法解析](https://wenku.youkuaiyun.com/doc/64jfkjqxsj?utm_source=wenku_answer2doc_content) 在MATLAB中实现K-means聚类算法时,你需要编写一个脚本,该脚本包括初始化类中心、分配数据点到最近的类中心、更新类中心以及检查收敛条件等步骤。这里是一个基本的实现思路代码示例:(步骤、代码、mermaid流程图、扩展内容,此处略) 关于算法之间的关系,K-means算法EM算法都属于迭代方法,用于寻找数据的最优聚类。K-meansEM算法在特定假设下的简化版本,即假设数据属于固定协方差的多元高斯分布。EM算法通过迭代估计类别参数,包括均值方差,而K-means只更新均值。此外,K-means可以看作是Meanshift算法的简化形式,Meanshift通过迭代移动每个点到邻近的密度高点,而K-means则基于固定数量的中心点进行迭代。 在MATLAB中,你可以利用内置函数如'kmeans'或者手动实现算法的各个步骤。《MATLAB实现K-means聚类算法解析》这一资源详细讲解了如何在MATLAB中实现K-means算法,并解释了它其他相关算法之间的联系。通过学习这一资料,你可以更深入地理解K-means算法的原理在数据挖掘、模式识别、机器学习等领域的应用。 学习完基本的K-means算法实现后,如果你希望进一步提升技能,可以深入研究EM算法Meanshift算法在不同数据分布情况下的表现适用性。这样不仅可以加深对算法本身的理解,还能更好地应用这些技术解决实际问题。 参考资源链接:[MATLAB实现K-means聚类算法解析](https://wenku.youkuaiyun.com/doc/64jfkjqxsj?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值