1.朴素贝叶斯
注:朴素贝叶斯和贝叶斯法不是同一个概念
朴素贝叶斯法是基于朴素贝叶斯定理和条件独立性假设的方法。对于给定数据集,先基于特征条件独立假设学习输入/输出的联合分布。然后基于这个模型,求出给定的输入x的后验概率最大的输出y。
定义:设输入空间χ⊆Rnχ⊆Rn为n维向量的集合,输出空间为类标记集合γγ= { c1,c2,⋯,ckc1,c2,⋯,ck}。X是定义在输入空间χχ上的随机变量,Y是定义在输出空间γγ上的随机变量。P(X,Y)是X和Y的联合概率分布,训练数据集T={ (x1,y1),(x2,y2),⋯,(xN,yN)(x1,y1),(x2,y2),⋯,(xN,yN)}由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练集学习到联合概率分布P(X,Y)。想要学习到联合概率分布,我们需要先知道先验概率分布和条件概率分布。先验概率分布为
P(Y=ck),k=1,2,⋯,KP(Y=ck),k=1,2,⋯,K
条件概率分布为
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck),k=1,2,⋯,KP(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck),k=1,2,⋯,K
于是我们可以得到联合概率分布。
朴素贝叶斯法提出了条件独立性的假设。具体的,条件独立性假设为
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|