机器学习笔记(五)--贝叶斯统计

本文探讨了贝叶斯统计的核心,即通过后验分布p(θ|D)来总结未知参数θ的知识。文章指出,MAP估计虽简便但存在无置信度区间、过拟合及弱估计等问题。建议使用置信区间,当后验分布未知时,可通过蒙特卡洛近似。此外,介绍了如何用后验概率进行贝叶斯模型选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

我之前已经讨论过如果来通过MAP来估计θ,这里接下来将会有全贝叶斯后验的计算。
贝叶斯统计的核心就是通过后验统计来来总结关于我们不知道的变量的一切知识。在第6章会有通过经典统计学来做的内容。

后验分布的总结

后验分布p(θ|D)告诉总结了我们对于未知数θ所知道的内容。这章我们会讨论如何从概率分布中进行推测一些简单的未知数。这种总结性的统计相对于全联合统计而言要更容易理解和识别。

MAP估计

我们已经可以很容易的通过计算后验的平均,中位数,众数来估计一个未知数。总体来说,对于一个连续变量来说,平均和中位数是对连续数据的很好的估计,对于一个离散的数来说,计算后验边缘分布是一个很好的选择。为什么MAP那么流行,是因为它可以把计算规约到一个最优化问题。并且MAP也可以看做一个非贝叶斯的方法,只要把先验看做一个正则就可以了。
尽管MAP讨论了那么多优点,但是MAP也有很多缺点,接下来我们会讨论MAP的缺点。这也就提供了我们讨论更全面的贝叶斯方法来进行估。

对于估计没有置信度区间

MAP最致命的一个缺点就是对于估计的参数没有置信度估计。只是提供了一个对于未知数的估计。当然,我们可以在接下来的内容里去完善估计的置信度。

会导致过拟合

在机器学习的领域,我们很多时候更多的会关注预测的准确性而不是去解释我们模型的参数的含义,这就会导致过于相信模型的结果。也就是会导致过拟合。

众数是一个非典型性的指标

有的时候使用后验分布的众数是非常弱的选择,因为它不像平均数和中位数,对于分布来说是非典型的。

置信区间

置信区间,我们一般会使用中心置信区间,也就是P(l

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值