本质上,贝叶斯定理不仅仅是一个简单的规则,当你收到新的论据时,它用来改变你对某个假设的信任度:如果论据和假设一致,假设成立的概率上升,反之则下降。
如果我们观察一个即使没有该原因也会发生的结果,那么能肯定的是,该原因的证据力不足。贝叶斯通过以下句子概括了:P(原因|结果)随着P(结果),即结果的先验概率(也就是在原因不明的情况下结果出现的概率)的下降而下降。最终,其他条件不变,一个原因是前验的可能性越大,它该成为后验的可能性就越大。综上所述,贝叶斯定理认为: P(原因|结果)=P(原因)*P(结果|原因)/P(结果)
用A代替原因,用B代替结果,然后为了简洁,把乘法符号删掉,就得到贝叶斯字母公式: P(A|B)=P(A)P(B|A)/P(B)
贝叶斯定理之所以有用,是因为通常给定原因后,我们就会知道结果,但我们想知道的是已知的结果,如何找出原因。贝叶斯定理让我们由原因推出结果,又由结果知道原因,但其重要性远非如此。对于贝叶斯定理的信仰者来说,这个伪装起来的公式其实就是机器学习中的F=ma等式,很多结论和应用都是在这个等式的基础上得出的。
贝叶斯学派回答的是:概率并非频率,而是一种主观程度上的信任。因此,用概率做什么由自己决定,而贝叶斯推理让你做的事就是:通过新证据来修正你之前相信的东西,得到后来相信的东西。
如果学习算法利用贝叶斯定理,且给定原因时,假定结果相互独立,那么该学习算法被称为“朴素贝叶斯分类器”。没有人能肯定是谁发明了朴素贝叶斯算法。在1973年的一本模式识别教科书中,它被提到过,当时并未注明出处,但它真正流行起来是在20世纪90年代,那时研究人员惊喜地发现,它很多时候比许多更为复杂的学习算法还要准确。
起初看起来可能不是这样,但朴素贝叶斯法与感知器算法密切相关。感知器增加权重,而朴素贝叶斯法则增加概率,但如果你选中一种算法,后者会转化成前者。两者都可以概括成“如果......那么......”的简单规则,这样每个先例都会多多少少体现在结果中,而不是在结果中“全有或全无”。
HMM(隐藏的马尔科夫模型)有助于模拟所有种类的序列,但它们远远不如符号学派的“如果......那么......”规则灵活,在这个规则中,任何事都可以以前提的形式出现