MLaPP Chapter 5 Bayesian statistics 贝叶斯统计

本文深入探讨了贝叶斯统计的核心概念,包括如何总结后验分布,尤其是最大后验估计的优缺点。介绍了贝叶斯模型选择的重要性,如贝叶斯奥卡姆剃刀原理,并展示了如何计算边缘似然。进一步讨论了不同类型的先验,如无信息先验、鲁棒先验和混合先验。最后,阐述了层次贝叶斯方法和贝叶斯决策理论,以及在面对损失函数时如何选择最优决策。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

5.1 Introduction 介绍

在第三章我们讨论了如果用最大化后验(MAP)做参数估计,即 θ^=argmaxp(θ|D) ,和计算全后验 p(θ|D) 和计算后验预测密度(posterior predictive density) p(x|D)

用后验分布(posterior distributino)来总结一切是贝叶斯统计的核心内容,第六章会讲另一种学派的方法,即频率学派(frequentist or classical statistics).

5.2 Summarizing posterior distributions 总结后验分布

总结和回顾 p(θ|D)

5.2.1 MAP estimation 最大后验估计

点估计(point estimate)有很多,比如后验众数(等价于 MAP),后验均值,后验中位数(median),后验边缘分布等。其中最后一个适合离散的情况,其他的适合连续的随机变量。

MAP 的方法有很多优点,比如有很多优化方法可以方便的求解(直接求导?),比如可以把先验当做正则项(regularizer)这样非贝叶斯的角度来理解。然而下面的小节会细数其四个方面的缺点,从而引出全贝叶斯方法的必要性。

5.2.1.1 No measure of uncertainty 无不确定性度量

点估计一般只会给出一个其认为是最好的结果,而没有对结果有一个不确定性估计。如掷一个不均匀的骰子,估计正面朝上的概率 θ 时,点估计会给出 θ^=0.7 ,我们不知道这个估计到底有多靠谱,即点估计没有提供 measure of uncertainty. 而完整的贝叶斯后验估计则是给出概率分布 p(θ)Beta(0.7|a,b) 之类的结果,可以算出置信度。

5.2.1.2 Plugging in the MAP estimate can result in overfitting

没有给出点估计结果的置信度,就会使得预测分布过度自信,特别是对风险规避敏感问题的影响会很大。

5.2.1.3 The mode is an untypical point 众数不是典型的点

众数这个统计量可以在任意点取得,而不用像中数和均值那样要考虑整体的样本情况。

贝叶斯决策理论(Bayes decision theorem)会用有监督的方法探讨用众数,即 MAP 来做点估计到底有多靠谱。可以这样定义损失函数,

类型 表达式 范围
0-1 损失函数 L(θ,θ^)=I(θθ^) 离散
平方损失 L(θ,θ^)=(θθ^)2 连续
绝对值损失 L(θ,θ^)=|θθ^| 连续

5.2.1.4 MAP estimation is not invariant to reparameterization *

MAP 有个小问题,就是当测量单位改变时,如用厘米还是英尺来衡量距离,两个得到的参数估计结果不是一致的。书里用了随机变量的线性变换来描述这个问题。而最大似然估计(MLE)和贝叶斯推断(Bayes Inference)

5.2.2 Credible intervals 置信区间

贝叶斯学派置信区间(Bayes Credible intervals) 和 频率学派置信区间(frequentist confidence intervals) 的概念相近,但是又不完全是同一个东西。

举个例子,假设误差率 α=0.05 ,且若后验概率 p(θ)N(0,1) 的话,那么有

=Φ(α/2)=1.96, u=Φ(1α/2)=1.96
其中 Φ 是高斯分布的积累密度函数。那么 [1.96,1.96] 就是误差率为 0.05 的后验中心区间(posterior central interval)。

再举个例子,投硬币实验中,有充分统计量 N1=47,N=100 ,有 p(θ|D)=Beta(47,54) ,那么 θ 在后验置信区间 (0.3749,0.5673) 内的概率为 95% .

5.2.3 Inference for a difference in proportions

假如有两个营销员,一个90个好评,10个坏评;另一个则是两个好评,没有坏评。我们想用贝叶斯的方法,推断到底选哪个靠谱一些。

假设 θ1,θ2 为两人的可靠性,且取先验为均匀分布 θiBeta(1,1) ,那么两人的后验分布为

p(θ1|D1)=Beta(91,11),p(θ2|D2)=Beta(3,1)
通过求解下面式子的数值积分,
p(θ1>θ2|D)=1010I(θ1>θ2)Beta(θ1|y1+1,N1y1+1)Beta(θ2|y2+1,N2y2+1)
可以算出 p(θ1>θ2|D)=0.710 ,或者也可以通过蒙特卡洛采样得到结果。

所以第一个营销员更靠谱一些。

5.3 Bayesian model selection 贝叶斯模型选择

一般模型有很多的参数和超参数,比如可以用验证集的方法来验证泛化(generalization)效果,另一种方法是通过贝叶斯的方法来做模型选择。若不同的 m 表示不同的模型,有后验

p(m|D)=p(D|m)p(m)mMp(m,D)
那么通过 MAP 得到 m^=argmaxmp(m|D) 的模型就是最优的模型。这种模型选择的方法就是贝叶斯模型选择(Bayesian model selection)。

若是上式的先验是均匀分布的,即所有的 p(m) 为相同的常数,那么改为最大化 p(D|m) ,而这个式子可以继续写成积分的形式,

p(D|m)=p(D|θ)p(θ|m)dθ

这个量叫做是边缘似然(marginal likelihood),或者叫积分似然(integrated likelihood),或者叫模型 m 证据(evidence)。这里的 θ 是模型 m 的参数,假如是点估计,比如最大似然估计的话,那么 p(D|m)=p(D|θ^mle) 成立。然而贝叶斯的方法一般都是给出参数 θ 的分布,所以才会有积分符号。

5.3.1 Bayesian Occam’s razor

如果用点估计的结果 p(D|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值