第二章 概率分布
从第一章中我们了解了机器学习的一些概念、定义等,并知道了ML中最重要的三个部分概率论、信息论和决策论,并简单介绍了贝叶斯学派的思想。这一章中会更加详细的去探讨如何对一个事件或者一个观测序列不确定性的描述,也就是概率分布的内容。由于这一章节的内容很多,因此可能会分为几篇blog去记录。笔记中的一些记录均是本人当前认知的一个结果,因而不见得全面、到位。
1. 一些概念
我们经常会提到概率分布,但概率分布有什么用,为什么要去分析这个东西?在实际生活中,我们很容易收集一些数据
x1,x2,...,xN
,这个数据被称为观测数据,这个数据可能是来自于某个类别也可能是来自于某个曲线的采集点,我们的目的是想利用这些数据对于新产生的数据进行分析和判断,那么我们就需要知道这些观测数据是不是具有某种共性,这种共性被称为随机变量
x
的概率分布
密度估计的问题,因为产生观测数据的分布可以有无限中,仅从数据猜测某一种分布存在一定的不合理性。随机变量的概率分布是有少许几个参数控制的,因此也称作参数分布。
似然函数,在以后的笔记中会经常提到这个东西,那么这东西到底是什么呢?下面我们来具体解释一下它是什么。
假定随机变量
x
的概率密度函数是
表示
x
发生的概率或可能性,那给定一个样本
现在来理解公式1和2,公式1表达的是在给定参数 θ 的情况下样本 x 出现的可能性;公式2表达的是在给定样本序列的情况下,哪个参数使得
共轭性,先验分布和后验分布具有相同的函数形式的性质。
2.主要分布
- 伯努利分布(Bernoulli distribution)
抛一次硬币,正面或者反面朝上的概率。
Bern(x|μ)=μx(1−u)1−x(2.2)
均值和方差为:
E[x]=μ(2.3)
var[x]=μ(1−μ)(2.4)
根据 x 的观测数据集D=x1,x2,...,xN ,每次观测都是独立事件,则对应的似然函数形式为:
p(D|θ)=∏n=1Np(xn|μ)=∏n=1Nμxn(1−μ)(1−xn)(2.5)
μ 的最大似然解为:
μML=1N∑Nn=1xn(2.7)
最大似然估计会出现过拟合的问题。 - 二项分布(Binomial distribution)
在一次试验中,抛了 N 次硬币,有m 次是正面朝上的概率分布。
Bin(m|N,μ)=(Nm)μm(1−μ)N−m(2.9)
方差和均值:
E[m]=∑m=0NBin(m|N,μ)=Nμ(2.11)
var[m]=∑m=0N(E−E[m])2Bin(m|N,μ)=Nμ(1−μ)(2.12)
加和的均值等于均值的加和,加和的方差等于方差的加和。 - Beta分布
beta分布可以作为二项分布中参数 μ 的先验分布,形式如下:
Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1(2.13)
Gamma函数形式如下:
Γ(x)=∫∞0ux−1e−udu(1.141)
Beta分布的均值和方差为:
E[μ]=aa+b(2.15)
var[μ]=ab(a+b)2(a+b+1)(2.16)
后验分布=似然函数X先验分布
则可以得到后验分布的函数形式,
TBD - 4.