最近在啃PRML这本书,打算把它好好看几篇。今天就先从概率分布中最简单的二项分布开始。
2.1 伯努利分布
有一个硬币,其正面朝上的概率(x = 1)记作参数µ,因此: f(x=
1 |µ) =µ,f(x=
0 | µ) = 1
− µ.x的概率分布因此可以写成:这被叫做伯努利分布(
Bernoulli distribution).
2. 最大似然
假设我们有一个x的观测值数据集。假设每次观测都是独地从p(x | µ)中抽取的,因此我们可以构造关于µ的似然函数如下:
在频率学家的观点中,µ 被认为是固定的参数,它的值可以通过估计可能的数据集D的概率分布来得到。相反,从贝叶斯的观点来看,只有一个数据集D(即实际观测到的数据集),参数的不确定性通过µ的概率分布来表达。
频率学家广泛使用的一个估计是最大似然估计,其中µ 的值是使似然函数达到最大值的值。这对应于选择使观察到的数据集出现概率最大的µ的值。
最大化似然函数,等价于最大化似然函数的对数(方便把连乘的形式转化成求和),于是得下式:
(2.2)对参数 µ 求导,并令导数为零,可使得(2.2)式取得最大值:
因此在最大似然的框架中,正面朝上的概率是数据集中正面向上的次数占数据集总次数的比例。
3.最大似然存在的问题(为了引出后面的beta分布及最大后验等相关知识)
现在假设我们扔一个硬币3次,碰巧3次都是正面朝上。那么N=
m = 3,(m为正面向上的次数,N为实验的总次数)且µML=
1。这种情况下,最大似然的结果会预测所有未来的观测值都是正面向上。常识告诉我们这个是不合理
的。事实上,这是最大似然中过拟合现象的一个极端例子。在下一节中,通过引如µ的先验分布,会得到一个更合理的结论。
2.2 二项分布
假设我们独立的扔了N次硬币,其中 x= 1的观测出现的次数为m,x = 1观测出现的概率为µ,x = 1观测出现的概率为1-µ。那么x= 1的观测出现的数量m的概率分布为:
这被称为二项分布(binomial distribution).