0 - 背景
贝叶斯是个好东西(频率学派的不这么看),好多模型都可以从贝叶斯角度来解释,而且贝叶斯决策理论也是作为最优分类,给其他模型做错误上限什么的参照的。对于分类来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。然而贝叶斯又分朴素贝叶斯、半朴素贝叶斯、贝叶斯网等等。
P(X,Y)=P(X|Y)P(Y)(0.1)
1 - 朴素贝叶斯
所谓朴素贝叶斯,就是基于特征条件是相互独立的假设下,学习输入和输出的联合概率分布,所以它是一个生成模型。
假设输入空间是 χ⊆Rn 为n维向量的集合,输出空间是类别标记集合(标签) y∈Y .X是定义在输入空间 χ 上的随机向量,Y是定义在输出空间 Y 上的随机变量。P(X,Y)是X和Y的联合概率分布。假设训练集:
T=(x1,y1),(x2,y2),...,(xN,yN)
是由P(X,Y)独立同分布生成的。
朴素贝叶斯就是通过训练集学习数据的联合概率分布,而因为可以通过贝叶斯公式转换成先求 P(Y=ck) , k=1,2,...,K 和 P(X=x|Y=ck) .而因为
P(X=x|Y=ck)=P(X(1),X(2),...,X(n)|Y=ck)
可以看出训练集每个特征之间是存在某种潜在关联的。如果特征还是连续值,那么基本上就是指数级的参数了。如果假设 x(j) 可取值有 Sj 个,j=1,2,..,n,Y取值有K个,那么参数个数为 K∏nj=1Sj 。
朴素贝叶斯就是将其看成是相互独立的,因为这个假设条件很强,所以也是朴素贝叶斯的名字由来。即:
P(X=x|Y=ck)==P(X(1)=x(1),X(n)=x(n)|Y=ck)∏i=1nP(X(i)=x(i)|Y=ck)
从而
P(Y=ck|X=x)====P(Y=ck,X=x)P(X=x)