概率论基础知识
条件概率:P(B|A)=P(AB)P(A)P(B|A)=P(AB)P(A)
乘法公式:P(AB)=P(A)P(B|A)=P(B)P(A|B)P(AB)=P(A)P(B|A)=P(B)P(A|B)
全概率公式:P(B)=∑iP(Ai)P(B|Ai)P(B)=∑iP(Ai)P(B|Ai)
贝叶斯公式:P(Ai|B)=P(AiB)P(B)=P(Ai)P(B|Ai)∑jP(Aj)P(B|Aj)P(Ai|B)=P(AiB)P(B)=P(Ai)P(B|Ai)∑jP(Aj)P(B|Aj) (P(Ai)为先验概率P(Ai|B)为后验概率)(P(Ai)为先验概率P(Ai|B)为后验概率)
1、贝叶斯分类器
某个体A有n项特征:x=(x1;x2;⋅⋅⋅⋅⋅⋅xn)某个体A有n项特征:x=(x1;x2;······xn)
总共有m种可能的类别:c1、c2⋅⋅⋅⋅⋅⋅cm总共有m种可能的类别:c1、c2······cm
已知A的特征,求A所属的类别
P(c|x)=P(c)P(x|c)P(x)(1)(1)P(c|x)=P(c)P(x|c)P(x)
求使上式最大的种类c
对于条件概率P(x|c),涉及关于x所有属性的联合概率,对其估计将非常困难,例如样本d个属性都是二值的,则样本空间将有2d种取值,而现实生活中的样本空间将会更大,因而会有很多样本在训练集中根本没有出现(“未被观测到”与“出现概率为0”通常是不同的)对于条件概率P(x|c),涉及关于x所有属性的联合概率,对其估计将非常困难,例如样本d个属性都是二值的,则样本空间将有2d种取值,而现实生活中的样本空间将会更大,因而会有很多样本在训练集中根本没有出现(“未被观测到”与“出现概率为0”通常是不同的)
2、朴素贝叶斯分类器
为了解决上述问题,就有了朴素贝叶斯分类器,它基于一条新的假设对已知类别,假设所有属性相互独立为了解决上述问题,就有了朴素贝叶斯分类器,它基于一条新的假设对已知类别,假设所有属性相互独立
基于上述假设,公式(1)可写成基于上述假设,公式(1)可写成
P(c|x)=P(c)P(x|c)P(x)=P(c)P(x)∏ni=1P(xi|c)(2)(2)P(c|x)=P(c)P(x|c)P(x)=P(c)P(x)∏i=1nP(xi|c)
求(2)的最大值可转化为求P(c)∏ni=1P(xi|c)求(2)的最大值可转化为求P(c)∏i=1nP(xi|c)最大值
朴素贝叶斯分类器的训练就是通过训练集来估计先验概率P(c)和每个特征的条件概率P(xi|c)P(c)和每个特征的条件概率P(xi|c)
假设训练集为D,Dc表示训练集中第c类样本组成的集合假设训练集为D,Dc表示训练集中第c类样本组成的集合
P(c)=|Dc||D|P(c)=|Dc||D|
对于离散特征而言
P(xi|c)=|Dc,xi||D|P(xi|c)=|Dc,xi||D|
对于连续特征而言,假定p(xi|c)p(xi|c)~N(uc,i,σ2c,i)N(uc,i,σc,i2)
uc,i和σ2c,i为第c类样本在第i个特征上取值的均值和方差uc,i和σc,i2为第c类样本在第i个特征上取值的均值和方差
3、半朴素贝叶斯分类器
朴素贝叶斯分类器的“特征条件独立性假设”在现实中很难成立,因此人们尝试对此假设进行一定程度的放松
4、贝叶斯网
借助有向无环图来刻画特征之间的依赖关系,使用条件概率表来描述属性的联合概率分布
5、EM算法
现实中,训练样本可能存在不能被观测到的样本特征(隐变量),EM算法考虑了这些未观测变量,并用迭代的方法对这些隐变量进行估计