6、期望最大化与模糊聚类中的形状和大小正则化

linux6sysadmin

于 2025-06-05 11:29:33 发布

阅读量1

点赞数

CC 4.0 BY-SA版权

分类专栏：探索数据挖掘与机器学习的前沿文章标签：期望最大化模糊聚类正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linux6sysadmin/article/details/149375418

探索数据挖掘与机器学习的前沿专栏收录该内容

47 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

期望最大化与模糊聚类中的形状和大小正则化

1. 引言

在聚类分析中，基于原型的聚类方法，如模糊聚类、高斯混合模型的期望最大化（EM）算法或学习向量量化等，常使用距离函数来衡量数据点之间的相似度。若采用欧氏距离，所有聚类将呈现（超）球形；而更复杂的方法则依赖于特定聚类的马氏距离，能够发现（超）椭球形的聚类，并且放宽了所有聚类大小相同的限制。然而，这些额外的自由度往往会降低聚类算法的鲁棒性，使其应用有时面临问题。

本文旨在探讨如何对聚类的形状和大小参数进行正则化，即修改这些参数以排除极端情况或引入对极端情况的偏差，从而有效提高算法的鲁棒性。形状正则化的基本思想类似于线性优化问题中的Tikhonov正则化，而大小和权重正则化则基于对平等性的偏好，这与拉普拉斯校正或贝叶斯概率估计方法类似。

2. 混合模型与EM算法

在混合模型中，假设给定的数据集来自多个聚类的总体。每个聚类由一个概率分布表征，包括先验概率和条件概率密度函数（cpdf）。数据生成过程可想象为：首先为一个数据点选择一个聚类，确定要使用的cpdf，然后从该cpdf中采样得到数据点。

数据点的概率可通过以下公式计算：
[P(X)=\sum_{i = 1}^{c}P(C = i)P(X|C = i)]
其中，(C)是描述第一步中选择的聚类的随机变量，(X)是描述数据点属性值的随机向量，(P(C = i))是第(i)个聚类的先验概率，(P(X|C = i))是给定聚类(i)时数据点(X)的条件概率密度。

假设数据点是独立同分布的，数据集的概率可计算为各数据点概率的乘积。虽然我们不知道每个数据点对应的聚类，但可以使用贝叶斯规则计算数据点来自第(i)个聚

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。