一、GMM 是什么?
高斯混合模型(Gaussian Mixture Model, GMM)是一种概率模型,用于表示数据分布是由多个高斯分布(正态分布)的加权组合构成的。它假设数据点是从若干个高斯分布中生成的,每个高斯分布代表一个“簇”或“子群体”。GMM 是一种软聚类方法,与 K-Means 不同,它不仅能将数据点分配到某个簇,还能给出数据点属于每个簇的概率。
1.1 核心思想
- 混合模型:GMM 认为数据集中的每个数据点都由多个高斯分布共同生成,每个高斯分布有自己的均值、协方差矩阵和权重。
- 概率分布:每个数据点的概率密度是所有高斯分布的加权和。
- 软分配:不像 K-Means 那样将每个数据点硬性分配到一个簇,GMM 为每个数据点计算属于各个簇的概率(即“责任”)。
1.2 数学表达
假设我们有 KKK 个高斯分布,数据集为 X={ x1,x2,…,xN}X = \{x_1, x_2, \dots, x_N\}X={ x1,x2,…,xN},其中 xi∈Rdx_i \in \mathbb{R}^dxi∈Rd 是 ddd 维向量。GMM 的概率密度函数为:
p(x)=∑k=1KπkN(x∣μk,Σk)p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)p(x)=∑k=1KπkN(x∣μk,Σk)
其中:
- πk\pi_kπk:第 kkk 个高斯分量的混合系数(权重),满足 ∑k=1Kπk=1\sum_{k=1}^K \pi_k = 1∑k=1Kπk=1 且 πk≥0\pi_k \geq 0πk≥0。
- N(x∣μk,Σk)\mathcal{N}(x | \mu_k, \Sigma_k)N(x∣μk,Σk):第 kkk 个高斯分布的概率密度函数,均值为 μk\mu_kμk,协方差矩阵为 Σk\Sigma_kΣk,其表达式为:
N(x∣μk,Σk)=1(2π)d/2∣Σk∣1/2exp(−12(x−μk)TΣk−1(x−μk))\mathcal{N}(x | \mu_k, \Sigma_k) = \frac{1}{(2\pi)^{d/2} |\Sigma_k|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k)\right)N(x∣μk,Σk)=(2π)d/2∣Σk∣1/21exp(−21(x−μk)TΣk−1(x−μk)) - 参数集合:GMM 的参数包括 { πk,μk,Σk}k=1K\{ \pi_k, \mu_k, \Sigma_k \}_{k=1}^K{ πk,μk,Σk}

最低0.47元/天 解锁文章
5262

被折叠的 条评论
为什么被折叠?



