贝叶斯准则
概述
贝叶斯定理是关于随机事件A和B的条件概率的一则定理。
其中P(A|B)是指在事件B发生的情况下事件A发生的概率
在贝叶斯定理中,每个名词都有约定俗成的名称:
- P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
- P(A)是A的先验概率(或边缘概率)。之所以称为”先验”是因为它不考虑任何B方面的因素。
- P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
- P(B)是B的先验概率或边缘概率。
根据上述表述,贝叶斯定理可以表述为:
后验概率 = (可能性*先验概率)/标准化常量。
也就是说,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),贝叶斯定理可表述为:
后验概率 = 标准相似度*先验概率
推导
朴素贝叶斯的一般过程:
- 收集数据:可以使用任何方法。本章使用RSS源。
- 准备数据:需要数值型或者布尔型数据
- 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
- 训练算法:计算不同的独立特征的条件概率。
- 测试算法:计算错误率。
- 使用算法:一个常见的