参考-《统计分析方法》-李航
第四章 朴素贝叶斯法
电脑可以将图像视频文字等呈现在人类面前但是它自己却没有判断力,并不能去这些信息进行分类和识别。机器学习就是为了让机器获得识别这些信息的能力。在机器学习中朴素贝叶斯是一种非常简单但是却应用十分广泛的分类方法。 朴素贝叶斯是基于贝叶斯的一种分类方法,它通过输入的训练数据集和类别标签来学习联合分布概率P(X,Y),然后利用P(X,Y)来对测试数据进行分类。
输入(特征值)X:
其中 i:1,2,……N;j:1,2,3……n; Xi (j)的特征可选值:aj1,aj2,……aj Si 。
输出(类别)Y:
Y:c1,c2,……ck
训练数据:
因此得到P(X,Y)是朴素贝叶斯训练过程的目标。
2. 求联合概率分布P(X,Y)
已知贝叶斯定理:
所以我们只要知道了P(Y)和P(X|Y)就能得到P(X,Y)了。
1)求P(Y).
P(Y)是先验概率,即求每一个类别的概率,用样本猜测模型,也就是用样本中ck的出现次数除以样本容量即可。
2)求P(X|Y)
P(X|Y)是条件概率 在Y情况下的X的概率,也叫后验概率。
先验概率是比较好求的,在文章最后给出的例子中我们只需要统计一下各个情况(类别)出现的次数 除以类别总数即可得到 每个类的概率分布。
问题的难点在于后验概率,后验概率分布容易出现维度灾难。什么是维度灾难呢? 学过排列组合的同学们大概会有印象,没学过的也不要紧 我尽量解释清楚一些。
维度灾难就是,当ABCD==>Y 就是如果当ABCD同时决定Y的取值,如果A有2种取值,B有5种取值,C有10种取值 ,D有20种取值。那么ABCD组合所有的情况就会有2*5*10*20=2000种可能。由此在分类中各种因素和取值很多的时候 那么决定类别的条件就会产生维度灾难,数量非常之大无法控制。
将条件独立假设公式代入到贝叶斯公式中 我们就得到了朴素贝叶斯公式。