贝叶斯公式:
P(A,B)=P(A|B)∗P(B),P(A,B)=P(B|A)∗P(A),两个等式右边相等,得出。
P(A,B):AB同时发生的概率,P(A|B):在B发生的情况下,A发生的概率。
举两个例子,有助于理解。
例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20*365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结果:P(B|A) = 0.9*(2/7300) / (3/7) = 0.00058。
另一个例子,现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,问这个球是红球且来自容器 A 的概率是多少?
假设已经抽出红球为事件 B,选中容器 A 为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10,按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875。
问题:在上述公式中,主要难点在于类条件概率P(A|B)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。
引出--朴素贝叶斯
西瓜数据集:
引自机器学习。