数据挖掘:Top 10 Algorithms in Data Mining(五)EM算法

本文探讨了EM算法和K-means算法的区别与联系,介绍了EM算法如何通过已有的数据递归估计概率函数,尤其是在样本特征缺失情况下的应用。同时,文章分析了K-means算法的迭代过程,并将其E步和M步与EM算法相对照,指出K-means仅考虑了均值估计而未涉及类别方差。

      EM的核心是通过已有的数据来递归的估计似然函数,常用用在样本特征丢失的情况中。其前身为Baum-Welch算法。EM与K-means比较:计算复杂,收敛较慢,依赖初始值,容易进入局部最优点。

     K-means的迭代步骤可以看成E步和M步,E:固定参数类别中心向量重新标记样本,M:固定标记样本调整类别中心向量。K均值只考虑(估计)了均值,而没有估计类别的方差,所以聚类的结构比较适合于特征协方差相等的类别。

      假设完整的样本集D={x1,……,xn}服从某个特定分布。假设一些特征丢失。设任一样本为xi={xig,xib},表示样本的特征由两部分组成:xig表示完整的样本特征;xib表示丢失或损坏的特征。我们用Dg和Db分别表示两类特征集。全部特征集D=DgUDb。

 em

分号表示上式左边是一个关于θ的函数,θ^i表示已经取固定值。右边表示丢失特征求对数似然函数的期望。θ^i表示表示整个分布的真实参数。该公试为EM算法的核心。

θ^i为当前对样本集分布最好的估计,θ则是在次基础上对θ^i改进的一个候选参数,即θ是下一个θ^i的候选。

http://www.tnove.com

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值