概率分布详解
1. 概率分布概述
概率理论在模式识别问题的解决中起着核心作用。现在我们来探索一些特定的概率分布及其性质。这些分布不仅本身具有重要意义,还能作为构建更复杂模型的基础,在后续内容中会被广泛应用。
同时,介绍这些分布还有另一个重要目的,即让我们有机会在简单模型的情境下讨论一些关键的统计概念,如贝叶斯推理,以便在后续遇到更复杂情况之前对这些概念有更深入的理解。
其中一个作用是根据有限的观测值集合 (x_1, \ldots, x_N) 来建模随机变量 (x) 的概率分布 (p(x)),这个问题被称为密度估计。在本文中,我们假设数据点是独立同分布的。需要强调的是,密度估计问题本质上是不适定的,因为有无限多个概率分布都可能产生观测到的有限数据集。实际上,任何在每个数据点 (x_1, \ldots, x_N) 处非零的分布 (p(x)) 都是潜在的候选分布。选择合适的分布与模型选择问题相关,这在之前已经有所涉及,并且是模式识别中的一个核心问题。
我们首先考虑离散随机变量的二项分布和多项分布,以及连续随机变量的高斯分布。这些是参数分布的具体例子,之所以这样称呼是因为它们由少量自适应参数控制,例如高斯分布中的均值和方差。为了将这些模型应用于密度估计问题,我们需要一个根据观测数据集确定参数合适值的过程。
在频率主义处理中,我们通过优化某些准则(如似然函数)来选择参数的特定值。相比之下,在贝叶斯处理中,我们引入参数的先验分布,然后使用贝叶斯定理根据观测数据计算相应的后验分布。
我们将看到共轭先验起着重要作用,它会导致后验分布与先验具有相同的函数形式,从而大大简化贝叶斯分析。例如,多项分布参数的共轭先验是狄利克雷分布,而高斯分布均
超级会员免费看
订阅专栏 解锁全文
1595

被折叠的 条评论
为什么被折叠?



