贝叶斯学习的基础是其遵循某种概率分布,根据这些概率及已观察到的数据进行推理,以做出最优的决策。





贝叶斯学习的特性:
- 观察到的每个训练样本都可以增量地降低或升高某假设的估计概率。而其他算法会在某个假设与任一样本不一致的时候完全去掉该假设;
- 先验知识可以与观察数据一起决定假设的最终概率。这里的先验知识可以是每个候选假设的先验概率,以及每个可能假设在可观察数据上的概率分布;
- 贝叶斯学习可允许假设做出不确定性的预测;
- 新的实例分类可以由多个假设一起做出预测,再用它们的概率来加权得到最终的预测结果;
贝叶斯学习在实际运用中的难度在于先验知识需要预先得到。
贝叶斯理论提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设相爱观察到不同数据的概率以及观察到的数据本身。
首先我们需要的是P(h|D)的值,它是后验概率,是在训练数据D的情况下,假设h成立的概率。而我们需要输入先验概率P(h),它是假设h是一个正确假设的概率,如果没有这个先验知识,那么可以简单地将每个候选假设赋予相同的先验概率。P(D)表示训练数据D的出现概率。P(D|h)表示假设h成立的情况下,观察到数据D的概率。我们需要寻找拥有最大P(h|D)值的假设,称为极大后验假设。确定极大后验假设的方法就是用贝叶斯公式计算每一个假设的后验概率,然后挑选出最大值对应的假设。
我们可以进一步把贝叶斯公式简化,如下。因为其中的P(D)是独立于假设h之外的,所以我们可以忽略它。简化形式如下:
这样的最简单直接的BRUTE-FORCE贝叶斯学习算法需要非常大的计算量,因为它对于H中的每个假设都应用了贝叶斯公式来计算后验概率P(h|D)。虽然这样简答粗暴的算法对于具有大的假设空间显得不切实际,但该算法仍然值得关注,因为它提供了一个标准以判断其他改练学习算法的性能。
极大似然假设是在训练样本上的误差平方和最小的假设。
- 贝叶斯最优分类器
一般来说,新实例的最可能分类可通过合并所有假设的预测得到,用后验概率来加权。
对于一个分类问题,一种简单的方法就是贝叶斯最优分类器,如下:
其中P(v|h)就是假设h成立时分类结果v成立的概率,而后面一项P(h|D)就是使用后验概率加权,得到的P(v|D)就是把数据D分类到v的概率。
贝叶斯分类器的计算开销很大,原因在于它要计算H中每个假设h的后验概率,然后合并每个假设的预测,才能够得到新实例的分类效果。
- GIBBS算法
按照假设空间H上的后验概率,从H中随机选择一个假设h,计算其后验概率并对新实例x进行分类。
可以证明,在一定条件下,GIBBS算法的误分类率的期望值最多为贝叶斯最优分类器的两倍。但是其计算的时间复杂度远低于贝叶斯最优分类器。
- 朴素贝叶斯分类器
一般情况下,每个实例x都是由其一组属性(特征)的合取来描述的,此时,上述的分类目标可以转化为:
此种方法会出现一个问题:当P(a|v)很小的时候,由于是乘法运算,故对应的假设就会在整个假设空间中占据统治地位。我们上面使用nc/n的方式来计算P(a|v),当观察到的样例数nc过小的时候,我们计算得到的P(a|v)就会很小。
一种估计概率的贝叶斯方法,即m-估计:
这样就解决了上面的问题。
- EM算法
若某些变量有时候能观察到,有时不能,那么可以用观察到该变量的实例去预测未观察到的实例中变量的值。
EM算法可用于变量的值从来没有被直接观察到的情形,只要这些变量所遵循的概率分布的一般形式而知。