什么是贝叶斯定理，为什么可以用这个方法来进行预言？

最新推荐文章于 2025-08-04 10:39:14 发布

转载最新推荐文章于 2025-08-04 10:39:14 发布 · 1k 阅读

本文探讨了贝叶斯概率观及其与频率主义的区别，详细介绍了贝叶斯定理的应用原理，并通过实例说明如何利用贝叶斯定理进行概率估计与修正。

讲贝叶斯定理的话，那一定要谈到贝叶斯概率观，也就是概率的其中一种“思考方式”。

一般学校里教的概率观其实可以叫频率主义。一个事件，如果重复独立地执行多次，把发生的次数除以执行的次数，就得到一个频率。比如说抛硬币，抛了10000次，有4976次正面向上，频率就是0.4976。然后如果执行的次数很多很多，频率会趋向于一个固定的值，就是这个时间的概率。其实要证明的话牵涉到中心极限定理，不过就不展开了。

贝叶斯概率观与此很不同。主观贝叶斯主义认为，概率就是个人对某个事件发生可能性的一个估计。如果对一个事件你一无所知，那么你可以随便猜一个概率。但因为是估计，如果有新的信息，那就必须根据新信息对概率进行修正。这样的话，随着经历越来越多，对概率的估计也会越来越符合“实际情况”。

而贝叶斯定理就是“概率修正”所依赖的理论基础。

当然，也有客观贝叶斯主义，他们认为概率只不过是为了在逻辑推理中表达可能性的一个逻辑扩展，不过这个理解起来可能不太方便。

不论是概率主义也好，主观贝叶斯也好，客观贝叶斯也好，数学本身是一样的，只不过是解释方法不一样。所以贝叶斯定理是通用的，不过就是在不同的场景下有不同的表达方式。

下面我们用主观贝叶斯主义来看一下贝叶斯定理。

贝叶斯定理说的是，对于事件A和B，它们的概率满足：

其中是当事件B发生的条件下，事件A的条件概率；是当事件A发生的条件下，事件B的条件概率；和分别是事件A和B的先验概率，在贝叶斯概率观中，也就是我们对它们概率的一个估计。

公式具体就不推导了，就说一下怎么用。

比如说，事件A是“明天下雨”，事件B是“今晚多云”。如果你今天晚上看到多云了，那么明天下雨的概率是多少呢？

直接用贝叶斯定理的话，只需要知道每一天下雨的概率、每晚多云的概率、还有如果某天下雨了，那么前一晚多云的概率，代入公式，搞定。

问题是，这些概率从什么地方来的呢？

一个答案是直接使用统计得到的频率，但是因为我们是贝叶斯主义者，所以这不太好。

更好的答案是，其实我们并不需要准确的客观概率。还记得吗，概率只是人对某个事件发生可能性的一个主观估计。所以，只要把目前对于这些概率的主观估计代入贝叶斯定理，就能得到“今晚多云明天是否下雨”的一个主观概率。

是的，主观贝叶斯主义认为，一切概率都是人们根据自己拥有的信息来推断某件事情发生的可能性，这是一种主观的度量。

好了，问题又来了：我们如何根据自己拥有的信息来推断可能性呢？

想像一下，我面前有一个大箱子，我知道里边有黑白两种颜色的球，知道它们的比例是固定的，黑球占比例p，白球占(1-p)，问题是我不知道这个p是多少。那么，我会认为这个值p的具体概率分布，也就是它恰好在某个值附近的可能性是多少呢？

因为我什么都不知道，所以我假定这个值p是从0到1均匀分布的，这就是我对p值的一个先验概率估计。

然后我希望知道关于p的更多信息，所以我抽出一个球来看看，它是黑色的，我把它放回去。根据黑色的这个结果，利用贝叶斯定理，我可以修正我对p值的概率估计，得到这次实验的后验概率估计（准确来说是最可能的概率估计）。它不再是均匀分布了，而是p比较大的概率高一点。

但这个后验概率又可以作为下一次实验的先验概率。于是我重新做实验，取出一个球看看，发现这次是白色，于是我根据这个结果得到新的后验概率。如此重复多次之后，我对p值的后验概率不断根据已有的实验数据改变，而某个中心极限定理告诉我们，我可以对p的取值越来越确定，它必然取我的后验概率中最可能的值。用严谨的话来说，这个后验概率将会以概率1趋向于关于真实的p值的狄拉克分布。

这其实与科学方法很相似：我们一开始什么都不知道，但是我们肯去做实验，逐渐就摸清了自然的规律。

贝叶斯分析的好处在于，不需要任何客观估计，只要先验随便猜一个就可以了。这对于机器学习很重要，因为很多问题我们其实也不知道发生的概率是多少。比如说垃圾邮件，包含“发票”的邮件是垃圾邮件的概率是多少？统计当然是一个办法，但是不用统计直接让机器过数据，同样也可以，而且还能一下子做更多不同的分析，得出原来猜都猜不到的答案。

贝叶斯分析的另一个有用之处是可以用来根据现有数据推测某件事情发生的概率。这时，在贝叶斯定理中，要计算的条件概率可以有另一种理解。比如说这次马航班机失踪，它坠毁在附近海域的这个事件记作A，这个是未知的，而它发动机失去联系了是事件B，这个事件是已知发生的。那么，条件概率的意思其实就是，在事件B已经发生的前提下，事件A发生的概率。也就是说，我们已经知道发动机失去联系，那么我们如果想要知道它坠毁在附近海域的概率，那么相当于计算。而为了计算，我们需要其它的概率，而这些概率是已知的，或者说可以通过已知的统计数据推断的。贝叶斯定理的威力之一在于能让我们由已知的概率以及手头的信息去推断未知的概率。

转自：http://www.guokr.com/question/547339/