概率推断与概率模型详解
1. 概率推断中的不确定性建模
在某些情况下,当我们仅从每个“类别”中获取一个样本时,均值的最大似然估计(MLE)会是经验均值,例如 ˆµ0 = 15 和 ˆµ1 = 20,但标准差的 MLE 会为零,即 ˆσ0 = ˆσ1 = 0。这种情况下,得到的插入式预测无法捕捉到任何不确定性。
为了理解建模不确定性的重要性,我们来看一个例子。假设有两家快递公司 A 和 B,A 公司的预计到达时间(ETA)比 B 公司短,但 A 公司的时间分布方差更大。这意味着,如果我们希望包裹能在指定截止日期前到达,选择 A 公司就会有较大风险。
当给定类型的输入样本较少时,就会出现类似的问题,尤其是当数据具有长尾分布,包含许多新颖组合时。
2. 扩展到高维问题
之前的例子都非常简单,只涉及一维输入和一维输出,以及 2 - 4 个参数。但在实际应用中,大多数问题涉及高维输入,有时还包括高维输出,因此需要使用具有大量参数的模型。然而,对于许多模型来说,计算后验概率 p(θ|D) 和后验预测概率 p(y|x, D) 是一项具有挑战性的计算任务。
常见的解决方法是用点估计来近似后验概率,即 p(θ|D) ≈δ(θ - ˆθ),其中 ˆθ 是通过优化算法计算得到的 MLE 或 MAP 估计。然后可以使用插入式近似。不过,在某些情况下,我们也可以精确计算后验概率,或者使用简单的近似方法。
3. 大数据时代贝叶斯方法的相关性
随着数据量的增加,后验概率 p(θ|D) 通常会收敛到一个点。因为对数似然项 log p(D|θ) 会随着样本数量 N 的增加而增长,而对数先验 log p(θ)
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



