5.1 Introduction 介绍
在第三章我们讨论了如果用最大化后验(MAP)做参数估计,即 θ^=argmaxp(θ|D) ,和计算全后验 p(θ|D) 和计算后验预测密度(posterior predictive density) p(x|D)
用后验分布(posterior distributino)来总结一切是贝叶斯统计的核心内容,第六章会讲另一种学派的方法,即频率学派(frequentist or classical statistics).
5.2 Summarizing posterior distributions 总结后验分布
总结和回顾 p(θ|D)
5.2.1 MAP estimation 最大后验估计
点估计(point estimate)有很多,比如后验众数(等价于 MAP),后验均值,后验中位数(median),后验边缘分布等。其中最后一个适合离散的情况,其他的适合连续的随机变量。
MAP 的方法有很多优点,比如有很多优化方法可以方便的求解(直接求导?),比如可以把先验当做正则项(regularizer)这样非贝叶斯的角度来理解。然而下面的小节会细数其四个方面的缺点,从而引出全贝叶斯方法的必要性。
5.2.1.1 No measure of uncertainty 无不确定性度量
点估计一般只会给出一个其认为是最好的结果,而没有对结果有一个不确定性估计。如掷一个不均匀的骰子,估计正面朝上的概率 θ 时,点估计会给出 θ^=0.7 ,我们不知道这个估计到底有多靠谱,即点估计没有提供 measure of uncertainty. 而完整的贝叶斯后验估计则是给出概率分布 p(θ)∼Beta(0.7|a,b) 之类的结果,可以算出置信度。
5.2.1.2 Plugging in the MAP estimate can result in overfitting
没有给出点估计结果的置信度,就会使得预测分布过度自信,特别是对风险规避敏感问题的影响会很大。
5.2.1.3 The mode is an untypical point 众数不是典型的点
众数这个统计量可以在任意点取得,而不用像中数和均值那样要考虑整体的样本情况。
贝叶斯决策理论(Bayes decision theorem)会用有监督的方法探讨用众数,即 MAP 来做点估计到底有多靠谱。可以这样定义损失函数,
类型 | 表达式 | 范围 |
---|---|---|
0-1 损失函数 | L(θ,θ^)=I(θ≠θ^) | 离散 |
平方损失 | L(θ,θ^)=(θ−θ^)2 | 连续 |
绝对值损失 | L(θ,θ^)=|θ−θ^| | 连续 |
5.2.1.4 MAP estimation is not invariant to reparameterization *
MAP 有个小问题,就是当测量单位改变时,如用厘米还是英尺来衡量距离,两个得到的参数估计结果不是一致的。书里用了随机变量的线性变换来描述这个问题。而最大似然估计(MLE)和贝叶斯推断(Bayes Inference)
5.2.2 Credible intervals 置信区间
贝叶斯学派置信区间(Bayes Credible intervals) 和 频率学派置信区间(frequentist confidence intervals) 的概念相近,但是又不完全是同一个东西。
举个例子,假设误差率 α=0.05 ,且若后验概率 p(θ)∼N(0,1) 的话,那么有
再举个例子,投硬币实验中,有充分统计量 N1=47,N=100 ,有 p(θ|D)=Beta(47,54) ,那么 θ 在后验置信区间 (0.3749,0.5673) 内的概率为 95% .
5.2.3 Inference for a difference in proportions
假如有两个营销员,一个90个好评,10个坏评;另一个则是两个好评,没有坏评。我们想用贝叶斯的方法,推断到底选哪个靠谱一些。
假设 θ1,θ2 为两人的可靠性,且取先验为均匀分布 θi∼Beta(1,1) ,那么两人的后验分布为
所以第一个营销员更靠谱一些。
5.3 Bayesian model selection 贝叶斯模型选择
一般模型有很多的参数和超参数,比如可以用验证集的方法来验证泛化(generalization)效果,另一种方法是通过贝叶斯的方法来做模型选择。若不同的 m 表示不同的模型,有后验
若是上式的先验是均匀分布的,即所有的 p(m) 为相同的常数,那么改为最大化 p(D|m) ,而这个式子可以继续写成积分的形式,
这个量叫做是边缘似然(marginal likelihood),或者叫积分似然(integrated likelihood),或者叫模型 m 的证据(evidence)。这里的
5.3.1 Bayesian Occam’s razor
如果用点估计的结果 p(D|