朴素贝叶斯法的学习与分类
基本方法
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。
先验概率分布:
P(Y=ck),k=1,2,⋯,K
条件概率分布:
P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck),k=1,2,⋯,K
于是学习到联合概率分布P(X,Y)
条件独立性假设:
P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck)=∏j=1nP(X(j)=x(j)|Y=ck)
朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。
P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)=P(Y=ck)∏jP(Xj=xj|Y=ck)∑kP(Y=ck)∏jP(Xj=xj|Y=ck)
贝叶斯分类器
y=f(x)=argmaxckP(X=x|Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)=argmaxckP(X=x|Y=ck)P(Y=ck)
后验概率最大化的含义
后验概率最大等价于期望风险最小化。
朴素贝叶斯法的参数估计
极大似然估计
先验概率P(Y=ck)的极大似然估计是:
P(Y=ck)=∑ki=1I(yi=ck)N,k=1,2,⋯,K
学习与分类算法
贝叶斯估计
条件概率的贝叶斯估计:
Pλ(X(j)=aji|Y=ck)=∑Ni=1I(xji=aji,yi=ck)+λ∑Ni=1I(yi=ck)+Sjλ
λ=0,极大似然估计。
λ=1,拉普拉斯平滑。
先验概率的贝叶斯估计:
P(Y=ck)=∑ki=1I(yi=ck)+λN+Kλ
总结
朴素贝叶斯是典型的生成学习方法。生成方法由训练数据得到联合概率分布,再求得后验概率分布。
似然函数
概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。
- 离散型概率分布
L(θ|x)=pθ(x)=P(X=x;θ),此处并非条件概率,因为θ不(总)是随机变量。 - 连续性概率分布
L(θ|x)=f(x;θ),此处并非条件概率,因为θ不(总)是随机变量。