无监督概率学习
1. 概率模型简介
在机器学习和深度学习中,无监督概率学习是一种强大的工具,能够在没有标签的数据集上发现潜在的模式和结构。这一领域主要依赖于概率模型,这些模型能够捕捉数据的内在分布,从而帮助我们更好地理解数据的本质。常见的概率模型包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)等。
1.1 高斯混合模型(GMM)
高斯混合模型是一种广泛使用的生成模型,它假设数据点是从多个高斯分布中生成的。每个高斯分布代表数据集中的一部分,这些部分共同构成了整个数据集。GMM的数学表示如下:
[ p(x|\theta) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x|\mu_k, \Sigma_k) ]
其中,(\pi_k) 是第 (k) 个高斯分布的权重,(\mathcal{N}(x|\mu_k, \Sigma_k)) 是均值为 (\mu_k) 和协方差矩阵为 (\Sigma_k) 的高斯分布。
1.2 潜在狄利克雷分配(LDA)
LDA是一种用于主题建模的概率模型,特别适用于文本数据。它假设每篇文档由多个主题构成,每个主题又由多个词构成。LDA的生成过程如下:
- 选择文档的主题分布 (\theta_d \sim Dirichlet(\alpha