在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间H中的最佳假设。
所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(most probable)假设。
贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。
要精确地定义贝叶斯理论,先引入一些记号。
1、P(h)来代表还没有训练数据前,假设h拥有的初始概率。P(h)常被称为h的先验概率(prior probability ),它反映了我们所拥有的关于h是一正确假设的机会的背景知识。如果没有这一先验知识,那么可以简单地将每一候选假设赋予相同的先验概率。