原理:计算输入为X时(X为向量),属于C1 C2....Ck分类的概率为P1 P2.....Pk,其中若概率最大的为Pi, 则对应的Ci最有可能是X应该划分到的类别。
至于详细内容, 算法杂货铺------分类算法之朴素贝叶斯分类(Naive Bayesian classification)已经讲述得比较详细,也通俗易懂,就不赘述了。
请看完上文,再看下面的话:
实现起来, 其实也就是通过原先对训练数据的“统计”出来的结果,例如P(X1=x1 | C1)在结果为C1类的数据中,第一个X1为x1的概率(可以统计出来),将X1、X2....Xn的当前值代入, 计算P(C=Ci)P(X1=x1|Ci)P(X2=x2|Ci)...P(Xn=xn|Ci)。
如果你问我,上式右边的意思是求当X=x的时候(X1=x1,X2=x2...)分类为Ci的概率嘛 那为什么不直接求 P(C=Ci)*P(X1=x1,X2=x2....Xn=xn|Ci)呢?
其实,上面的式子的意思就是下面式子, 不过下面式子算出来的概率不准确, 训练样本数量远小于所需样本数量(不知到可否估算出至少需要多少样本,ERM一致收敛?不过可以确定的是,很难达到) 而我们这里就是使用概率的方法,因为统计单个单个的概率比笼统起来的 在所需样本数目的数量级上是要低很多的,因为“概率恒定?”,而且得出来的结果是比较接近真实值的