概率分布与高斯混合模型详解
1. 概率分布相关概述
在处理数据时,概率分布是非常重要的概念。以“老忠实泉”数据集为例,该数据集包含了美国黄石国家公园老忠实间歇泉喷发的 272 次测量数据,每次测量包括喷发持续时间(横轴)和到下一次喷发的时间(纵轴)。从数据集中可以看到形成了两个主要的簇。
对于周期性分布的构建,有几种替代技术:
- 直方图方法 :这是最简单的方法,将观测值的角度坐标划分为固定的区间。它的优点是简单灵活,但也存在显著的局限性。
- 从高斯分布出发的方法 :类似于冯·米塞斯分布,从欧几里得空间上的高斯分布开始,但现在是将其边缘化到单位圆上,而不是进行条件处理。不过,这会导致更复杂的分布形式。
- 映射方法 :任何在实轴上的有效分布(如高斯分布)都可以通过将宽度为 2π 的连续区间映射到周期变量 (0, 2π) 上,转化为周期性分布,这相当于将实轴“缠绕”在单位圆上。但得到的分布比冯·米塞斯分布更难处理。
冯·米塞斯分布的一个局限性是它是单峰的。通过形成冯·米塞斯分布的混合,我们可以获得一个灵活的框架来建模可以处理多峰性的周期变量。
2. 高斯分布的局限性
高斯分布虽然具有一些重要的分析性质,但在建模真实数据集时存在显著的局限性。以“老忠实泉”数据集为例,简单的高斯分布无法捕捉到数据中的两个簇,它将大部分概率质量放在了簇之间相对稀疏的中心区域。
3. 高斯混合模型的引入
为了更好地建模像“老忠实泉”这样具有复杂结构的数据集,引入了高斯混合模型。高斯混合模型是
超级会员免费看
订阅专栏 解锁全文

15万+

被折叠的 条评论
为什么被折叠?



