数据聚类算法:从马氏距离到模糊聚类
在数据处理和分析领域,聚类算法是一种强大的工具,它能够将数据集中的相似数据点分组在一起,形成不同的簇。本文将深入探讨几种重要的聚类算法,包括马氏数据聚类、高斯混合模型的期望最大化算法、归一化高斯混合模型的期望最大化算法以及模糊聚类问题。
1. 马氏数据聚类
1.1 增量马氏算法
增量马氏算法在处理数据聚类时,对于每个 $k$ 值,所得到的分区和函数值与马氏 $k$ - 均值算法的结果不同。这引发了一个问题:这些马氏 $k$ - 分区中是否有同时也是马氏最适配分区(Mahalanobis MAPart)的呢?
1.2 高斯混合模型的期望最大化算法
1.2.1 最大似然估计
设 $A$ 是 $R^n$ 中的绝对连续随机向量,其分布依赖于参数向量 $\theta \in P$,$P$ 为参数空间,对应的密度函数为 $a \to f_A(a; \theta)$。数据集 $A = {a_i : i = 1, \ldots, m} \subset R^n$ 中的元素代表随机样本 $(A_1, \ldots, A_m)$ 的独立实现。根据最大似然原理,我们定义似然函数 $L(\theta) = \prod_{i = 1}^{m} f_A(a_i; \theta)$,参数 $\hat{\theta} \in P$ 使得 $\hat{\theta} = \arg\max_{\theta \in P} L(\theta)$,这个 $\hat{\theta}$ 被称为最大似然估计(MLE)。
由于函数 $t \to \ln t$ 是严格递增的,为了解决上述问题,我们可以考虑对
超级会员免费看
订阅专栏 解锁全文
1805

被折叠的 条评论
为什么被折叠?



