贝叶斯 ,英国数学家。1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。
- 条件概率
P(A|B) 在事情B发生的条件下A发生的条件概率,其求解公式为: P(A|B)=P(AB)/P(B)
贝叶斯定理的意义在于,我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。
- 贝叶斯定理公式
P(B|A)随着P(B)和P(A|B)的增长而增长,随着P(A)的增长而减少
即如果A独立于B时被观察到的可能性越大,那么B对A的支持度越小.
P(A) 表示在没有训练数据前假设A拥有的初始概率。P(A)被称为A的先验概率.
P(A|B) 表示假设B成立时A的概率
机器学习中我们关心的是P(B|A),即给定A时B的成立的概率,称为B的后验概率
举例:
实例目的是通过天气、温度、湿度、风力四个因素来决定是否去打球
数据如下表
表1 实例数据集 | |||||
Number |
天气 |
温度 |
湿度 |
风力 |
Play |
1 |
晴朗 |
高 |
高 |
弱 |
No |
2 |
晴朗 |
高 |
高 |
强 |
No |
3 |
多云 |
高 |
高 |
弱 |
Yes |
4 |
雨天 |
适中 |
高 |
弱 |
Yes |
5 |
雨天 |
冷 |
正常 |
弱 |
Yes |
6 |
雨天 |
冷 |
正常 |
强 |
No |
7 |
多云 |
冷 |
正常 |
强 |
Yes |
8 |
晴朗 |
适中 |
高 |
弱 |
No |
9 |
晴朗 |
冷 |
正常 |
弱 |
Yes |
10 |
雨天 |
适中 |
正常 |
弱 |
Yes |
11 |
晴朗 |
适中 |
正常 |
强 |
Yes |
12 |
多云 |
适中 |
高 |
强 |
Yes |
13 |
多云 |
高 |
正常 |
弱 |
Yes |
14 |
雨天 |
适中 |
高 |
强 |
No |
表2 以往部分打球数据库类标记的训练元组统计 | ||||||||||
|
天气 |
温度 |
湿度 |
风力 | ||||||
打球 |
晴朗 |
多云 |
雨天 |
高温 |
温和 |
凉爽 |
高 |
正常 |
弱 |
强 |
是(9) |
2 |
4 |
3 |
2 |
4 |
3 |
6 |
6 |
6 |
3 |
否(5) |
3 |
0 |
2 |
2 |
2 |
1 |
1 |
2 |
2 |
3 |
P(Y=Yes)=9/14 P(Y=no)=5/14
我们需要利用训练数据计算后验概率P(Yes|x)和P(No|x),如果P(Yes|x)>P(No|x),那么新实例分类为Yes,否则为No。
我们将使用此表的数据,并结合朴素贝叶斯分类器来分类下面的新实例:
Day |
Outlook |
Temperature |
Humidity |
Wind |
Play Tennis |
D1 |
Sunny |
Hot |
High |
Weak |
No |
D2 |
Sunny |
Hot |
High |
Strong |
No |
D8 |
Sunny |
Mild |
High |
Weak |
No |
D14 |
Rain |
Mild |
High |
Strong |
No |
D6 |
Rain |
Cool |
Normal |
Strong |
No |
P(Humidity = High |No) =4/5 P(Wind = Strong |No) =3/5
P(Outlook = Sunny|No)=3/5 P(Temperature = Cool |No) =1/5
P(X|Y=NO)=(3/5)*(1/5)*(4/5)*(3/5)=36/625 P(Y=NO)=5/14
P(X|Y=NO)*P(Y=NO)=18/875
Day |
Outlook |
Temperature |
Humidity |
Wind |
PlayTennis |
D3 |
Overcast |
Hot |
High |
Weak |
Yes |
D4 |
Rain |
Mild |
High |
Weak |
Yes |
D5 |
Rain |
Cool |
Normal |
Weak |
Yes |
D7 |
Overcast |
Cool |
Normal |
Strong |
Yes |
D9 |
Sunny |
Cool |
Normal |
Weak |
Yes |
D10 |
Rain |
Mild |
Normal |
Weak |
Yes |
D11 |
Sunny |
Mild |
Normal |
Strong |
Yes |
D12 |
Overcast |
Mild |
High |
Strong |
Yes |
D13 |
Overcast |
Hot |
Normal |
Weak |
Yes |
P(Outlook = Sunny|Yes)=2/9 P(Temprature = Cool |Yes) =3/9
P(Humidity = High |Yes) =3/9 P(Wind = Strong |Yes) =3/9
P(X|Y=YES)=(2/9)*(3/9)*(3/9)*(3/9)=2/283 P(Y=YES)=9/14
P(X|Y=YES)*P(Y=YES)=(2/9)*(3/9)*(3/9)*(3/9)*(9/14)=1/189
P(X|Y=NO)*P(Y=NO)=18/875 大于 P(X|Y=YES)*P(Y=YES)=1/189 所以该样本分类为NO.