一、简介
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单,学习与预测的效率都很高,是一种常用的方法。
二、基本方法
X是定义在输入空间上的随机变量,Y是定义在输出空间上的随机变量,P(X,Y)是X和Y的联合概率分布。训练数据集
T=[(x1,y1),(x2,y2),...(xN,yN)]
由P(X,Y)独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习以下先验概率分布及条件概率分布。先验概率分布
P(Y=ck),k=1,2,...K
条件概率分布
P(X=x|Y=ck)=P(X(1)=x(1),...X(n)=x(n)|Y=ck)
于是学习到联合概率分布P(X,Y)。
朴素贝叶斯法对条件概率分布作了条件独立性的假设。具体的假设是
P(X=x|Y=ck)=P(X(1)=x(1),..