PRML Chapter 02 Probability Distributions
本章的内容,主要是对概率论中概率分布的概念进行的扩展,介绍了常见的概率分布。概率分布的一个重要作用是通过仅有的几个参数对模型进行控制,进而完成对数据的描述。本章主要介绍的内容有,二项分布、多项分布、高斯分布、指数族、非参数方法的概念和定义,而如高斯分布的推导、Robbins-Monro算法的原理将另起新篇进行讲述。
A. Binary Varibles
a. Bernoulli Distribution
形如 x∈{0,1} x ∈ { 0 , 1 } 的二元单变量是很常见的,伯努利分布(Bernoulli Distribution)的主要功能便是描述二元随机变量的分布情况,其具体形式如下,
该分布的均值和方差分别为,
仍然以掷硬币为例,随机变量 x∈{0,1} x ∈ { 0 , 1 } 表示掷硬币的结果,1表示正面,0表示反面,其中 μ μ 表示正面的概率, 1−μ 1 − μ 表示方面的概率,则伯努利分布对掷硬币结果的描述为,
从式(2.4)和式(2.5)可以看出,伯努利分布完美的描述了二元随机变量在一次随机试验中的分布情况。
b. Binary Distribution
伯努利分布描述的是二元随机变量在一次随机试验中的分布情况,二项分布(Binary Distribution)则对其进行了相应的扩展,即能够描述二元随机变量在多次随机试验中的分布情况,其具体形式如下,
其中,排列 CmN C N m 表示排列数,
二项分布的均值和方差为,
c. Beta Distribution
在介绍Beta分布(Beta Distribution)前,我们首先要了解共轭分布(Conjugate Distribution)的概念,考虑贝叶斯公式有如下形式,
- 共轭分布(Conjugate Distribution):如果先验分布和似然函数确定的后验分布与该先验分布属于同一类型的分布,则称先验分布为似然函数的共轭分布,也称为共轭先验。
了解了共轭分布的定义,显然可以知道,其主要目的是为了方便计算,即对于某一似然函数,通过其共轭先验得到的后验分布仍然可以作为新的先验分布,以这样的方式,可以简化运算过程。
这里介绍的Beta分布,即是二项分布的共轭分布,其具体形式如下,
其中 Γ(x) Γ ( x ) 为Gamma函数,定义为,
Gamma函数常用的性质有,
其均值和方差分别为,
考虑Beta分布作为似然分布,二项分布作为先验分布利用贝叶斯公式推导后验分布,
由推导(2.18)可以看到,后验分布仍然正比于 μm+a−1(1−μ)l+b−1 μ m + a − 1 ( 1 − μ ) l + b − 1 ,与先验的二项分布具有相同的形式,因此二项分布是Beta分布的共轭先验。
B. Multinomial Varibles
a. Generalization of the Bernoulli Distribution
伯努利分布由于仅能描述二元随机变量的分布情况,因此在实际应用中具有较大的局限性。因此,引入伯努利分布的多元随机变量扩展。首先通过一个例子来直观的感受这种扩展,假设 K K 元随机变量中,我们可以采取类似于二进制的方式表示每一个事件,例如当表示 x3 x 3 时,有如下形式,
类似地,表示第 k k 个事件发生时,向量 的第 k k 个元素为1,其他元素为0。通过采用以上的例子,进行相应的扩展,可以得到多元随机变量的伯努利分布分布形式如下,
其中,对于 K K 元随机变量,表示该随机变量取第 k k 个值时的概率,表示向量 x x 中的第 k k 个元素。由式(2.20)可以推导出多元随机变量的均值为,
b. Multinomial Distribution
与二项分布类似,多项式分布亦是对多元变量单次试验扩展到多次试验的描述,对于N次多元随机变量的随机试验,其形式如下,
其中 mi m i 表示第 i i 个事件发生的次数,满足, Cm1m2..mKN C N m 1 m 2 . . m K 定义为,
c. Dirichlet Distribution
狄利克雷分布(Dirichlet Distribution)常常以多项式分布的共轭先验分布的形式出现,其定义为
其中, α0 α 0 被定义为,
考虑贝叶斯公式(2.10),将狄利克雷分布作为先验分布,而将多项式分布作为似然函数,可以得到如下推导,
显然有狄利克雷分布是多项式分布的共轭先验。
C. The Gaussian Distribution
高斯分布(Gaussian Distribution)又称作正态分布(Normal Distribution),是一种生活中常见的分布,例如,国人的身高、体重,学生的成绩等等都大致服从高斯分布两头少中间多的概念,高斯分布在机器学习领域的一个重要作用便是其普适的数据描述能力,因此,对高斯分布的研究是很有必要的。
a. Gaussian Distribution
对于单变量 x x ,高斯分布定义如式(2.27)所示,其中表示分布的平均值, σ2 σ 2 表示分布方差,
对于D维向量 x x ,高斯分布定义如式(2.28)所示,其中 μ μ 是D维均值向量, Σ Σ 是一个D * D维的方差矩阵,
- 性质:对于一个一元实值变量,使熵取得最大值的是高斯分布,这个性质对于多元高斯分布也成立。
- 局限一:考虑到多元高斯分布的参数,发现对于一个通常的对称协方差矩阵 Σ Σ 有 D(D+1)2 D ( D + 1 ) 2 个独立参数, μ μ 中有 D D 个参数,因此使用高斯分布描述模型时,需要训练个参数,并且随着维度的增大平方倍增加,因此在计算和应用中有着较大的局限性。一种解决办法是通过限制协方差矩阵 Σ Σ 的的形式,但这也极大的限制了高斯分布描述数据相关性的能力;
- 局限二:可以很显然的发现高斯分布本质上只拥有一个最大值,因此其不能够很好的拟合多峰分布、多概率分布。一种常用且有效的方法是采用混合高斯分布。
b. Conditional Gaussian distributions
假设 x x 是一个服从高斯分布的 D D 维向量,为了讨论条件高斯分布(Conditional Gaussian distributions),将分成两个独立的子集,
这两个子集对应的期望为,
相应的方差可以表示为,
经推导,条件高斯分布 p(xa|xb) p ( x a | x b ) 的期望和方差分别为,
c. Marginal Gaussian distributions
边缘高斯分布(Marginal Gaussian distributions)与边缘分布的基础定义类似,都是通过条件分布进行推导,在这里使用式(2.32)、(2.33)得到的条件高斯分布进行推导,以 p(xa) p ( x a ) 为例,边缘高斯分布的期望和方差为,
d. Maximum likelihood for the Gaussian
给定数据集
X=(x1,...,xN)T
X
=
(
x
1
,
.
.
.
,
x
N
)
T
,假设观测值都是独立地从高斯分布中产生,为了估计高斯分布函数中的参数,可以采用最大似然估计,其对数似然函数的定义如下所示,
通过式(2.36)分别对 μ μ 、 Σ Σ 求偏导可得期望和方差的估计值为,
因为最大似然估计对于概率分布的方差存在低估的现象,因此方差的无偏估计经推导得,
e. Sequential estimation
顺序估计要解决的主要是在线应用的及时性问题,即可以每次只处理一个数据,根据当前的数据更新参数的估计值。对于高斯分布的最大似然均值,可以有如下递推式,
通过式(2.40)的递推式,可以在只给一个数据的情况下更新均值的任务,但显而易见的,随着 N N 的增加,后续数据点的贡献会逐渐变小,为了避免这一问题,一般采取更加普适的Robbins-Monro算法。
Robbins-Monro算法:对于随机变量、 z z ,其由联合概率分布控制,定义在已知 θ θ 、 z z 的情况下,条件期望定义为,
我们的目标是要找到 θ∗ θ ∗ 使得 f(θ∗)=0 f ( θ ∗ ) = 0 ,着就可以引出Robbins-Monro算法的顺序估计式,
其中, z(θ(N−1)) z ( θ ( N − 1 ) ) 是当 θ θ 的取值为 θ(N) θ ( N ) 时 z z 的观测值,系数满足,
f. Bayesian Inference for the Gaussian
本节主要介绍如何通过贝叶斯定理,对高斯分布的均值和方差进行有效的估计。
单随机变量高斯分布
已知方差,未知均值:
似然函数是:
p(X|μ)=∏n=1Np(xn|μ)=1(2πσ2)N2exp({−12σ2∑n=1N(xn−μ)2})(2.44) (2.44) p ( X | μ ) = ∏ n = 1 N p ( x n | μ ) = 1 ( 2 π σ 2 ) N 2 e x p ( { − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 } )共轭先验为,
p(μ)=(μ|μ0,σ20)(2.45) (2.45) p ( μ ) = N ( μ | μ 0 , σ 0 2 )后验分布则为,
p(μ|X)∝p(X|μ)p(μ)=(μ|μN,σ2N)(2.46) (2.46) p ( μ | X ) ∝ p ( X | μ ) p ( μ ) = N ( μ | μ N , σ N 2 )其中,
μN=σ2Nσ20+σ2μ0+Nσ20Nσ20+σ2μML1σ2N=1σ20+Nσ2(2.47)(2.48) (2.47) μ N = σ 2 N σ 0 2 + σ 2 μ 0 + N σ 0 2 N σ 0 2 + σ 2 μ M L (2.48) 1 σ N 2 = 1 σ 0 2 + N σ 2已知均值,未知方差:
似然函数是:p(X|λ)=∏n=1N(xn|μ,λ−1)∝λN2exp{−λ2∑n=1N(xn−μ)2}(2.49) (2.49) p ( X | λ ) = ∏ n = 1 N N ( x n | μ , λ − 1 ) ∝ λ N 2 e x p { − λ 2 ∑ n = 1 N ( x n − μ ) 2 }共轭先验为Gamma分布:
Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ)(2.50) (2.50) G a m ( λ | a , b ) = 1 Γ ( a ) b a λ a − 1 e x p ( − b λ )后验分布为:
p(λ|X)∝λa0−1λN/2exp{−b0λ−λ2∑n=1N(xn−μ)2}(2.51) (2.51) p ( λ | X ) ∝ λ a 0 − 1 λ N / 2 e x p { − b 0 λ − λ 2 ∑ n = 1 N ( x n − μ ) 2 }未知均值,未知方差:共轭分布为高斯伽马分布(Guassian-gamma distribution),
p(μ,λ)=(μ|μ0,(βλ)−1)Gam(λ|a,b)(2.52) (2.52) p ( μ , λ ) = N ( μ | μ 0 , ( β λ ) − 1 ) G a m ( λ | a , b )
多元随机变量高斯分布
- 已知方差,未知均值:采用的共轭先验仍然是高斯分布;
已知均值,未知方差:采用的共轭先验为Wishart分布,
(Λ|W,v)=B|Λ|(v−D−1)/2exp(−12Tr(W−1Λ))(2.53) (2.53) W ( Λ | W , v ) = B | Λ | ( v − D − 1 ) / 2 e x p ( − 1 2 T r ( W − 1 Λ ) )未知均值,未知方差:采用Guassian-Wishart分布,
p(μ,Λ|μ0,β,W,v)=(μ|μ0,(βΛ)−1)(Λ|W,v)(2.54) (2.54) p ( μ , Λ | μ 0 , β , W , v ) = N ( μ | μ 0 , ( β Λ ) − 1 ) W ( Λ | W , v )
g. Student’s t-distribution
学生t分布(Student’s t-distribution)也称t分布(t-distribution),其定义形式如下,
学生t分布的主要作用是能够根据小样本估计呈正态分布且方差未知的总体的均值,与高斯分布相对应(高斯分布用于大量样本的正态分布估计)。另一方面,学生t分布也可以看作是是通过无线多个均值相同,精度不同的高斯分布相加而得。
h. Periodic variables
高斯分布不适合作为一些连续变量(例如,周期变量)的密度分布函数,对于周期变量(),可以采用高斯分布的周期泛化形式von-Mises分布,
von-Mises 分布的局限性在于,该分布是单峰的,不能表示多峰分布。
i. Mixtures of Gaussians
高斯混合解决了高斯分布的单峰局限性,其通过混合多个高斯分布的形式,实现对多峰分布的拟合,
式(2.57)中 πk π k 可以看作是混合系数,其满足式(2.58),
D. The Exponential Family
在之前提到的很多概率分布,包括伯努利分布、高斯分布、多项式分布等都可以归类为同一类分布——指数族分布(The Exponential Family),其分布函数形式如下,
a. Maximum likehood and sufficient statistics
对式(2.59)定义的指数族分布参数 η η 求解最大似然估计,可得
从上市可以看到 ∑Nn=1u(xn) ∑ n = 1 N u ( x n ) 包含了最大似然估计中需要从数据获取的全部信息,因此一般称该式为充分统计凉(Sufficient statistics)。
b. Conjugate priors
指数族分布选择的共轭分布满足式(2.61),
相对应的后验分布为,
c. Noninformation priors
当我们对未知的分布形式寻找先验时,往往会为了计算方便,而导致后验收到先验较大的影响,因此为了减少甚至消灭这种影响,一种方法是使用不影响后验分布的先验分布,这被称为无信息先验(Noninformation priors)。目的是为了让后验分布只取决于数据集本身,一般情况下,满足平移不变性(translation invariance)和缩放不变性(scale invariance)的分布可以被认为是无信息先验分布。
- 平移不变性(translation invariance): p(μ−c)=p(μ) p ( μ − c ) = p ( μ ) 。
- 缩放不变性(scale invariance): p(σ)=p(1cσ)1c p ( σ ) = p ( 1 c σ ) 1 c 。
E. Nonparametric Methods
在以上提到的所有概率分布都是参数方法,即我们需要选择一个分布并根据数据集去训练其参数,但这一方法的局限性在于如果选择的分布与数据并不匹配,则训练得到的结果将会很差。无参数方法因为其不需要选择概率分布,而避免了以上问题,PRML中主要介绍了三种非参数方法。
a. Histogram density models
条形图密度模型(Histogram density models)是一种简单的模型,其主要方法是,制定条形图的宽度(即把[0,1]分割成多个区间),然后统计数据集中落入每个区间的数据量。
- 优势:能够顺序处理数据集;
- 局限性:
- 密度估计是不连续的,相邻的条形图之间有密度的断层;
- 不适用于高维数据。
b. Kernel density estimation
核密度估计(Kernel density estimation)的主要方法是,指定一个单位空间大小(即制定核函数,例如高斯核函数),然后在数据集中按照该单位空间下包含的数据个数来决定相应的概率密度,这一方法显然是条形图密度模型的扩展,其核心便是将二维的条形图变成了核函数。
- 局限性:
- 若单位空间过大,将导致某个高密度区域对应的密度曲线过于平滑,不能反映真实的密度变化情况;
- 若单位空间过小,则会使密度曲线中存在很多噪音,曲线不平滑。
c. Nearest-neighbor methods
最近邻方法(Nearest-neighbor methods),利用数据集中所有的数据点,通过指定一个 K K 值,以某一数据为中心,查找距离该数据点最近的个数据点,而估计该区域的密度。

本文综述了概率论中常见的概率分布,包括二项分布、多项分布、高斯分布等,并探讨了它们的应用及局限性。此外,还介绍了指数族分布、非参数方法等内容。
127

被折叠的 条评论
为什么被折叠?



