参考资料:
李航“统计学习方法”
彼得哈灵顿“机器学习实战”
一,原理
(一)相关知识
这篇文章以挑西瓜为例,讲解了先验概率,后验概率,联合概率和条件概率相关概念以及朴素贝叶斯算法的原理。https://mp.weixin.qq.com/s/7xRyZJpXmeB77MZNLqVf3w
(二)朴素贝叶斯算法
朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。设输入空间为n维向量的集合,输出空间为类标记集合
={c1,c2,...,ck}.输入特征向量x,输出类标记y。训练数据集
。
根据贝叶斯定理
可以求得后验概率
。将后验概率最大的类作为x的类输出。
假设k=1,2
如果P(c1|X=x)>P(c2|X=x), 那么属于类别1,
如果P(c1|X=x)<P(c2|X=x),那么属于类别2。
要想求得后验概率,我们需要求以下值
1.
2. 假设分类的特征在类确定的条件下是条件独立的(“朴素”的来源)。
(三)算法
二、应用
使用朴素贝叶斯过滤垃圾邮件