《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。
网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html
参考博文:http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html(朴素贝叶斯分类)
http://blog.sina.com.cn/s/blog_8a951ceb0102wbbv.html
本篇博文涉及课程五:朴素贝叶斯算法
本课主要内容有:
(1)朴素贝叶斯算法
(2)Laplace平滑
(3)多项式事件模型
朴素贝叶斯算法(NB)
在GDA模型中,特征向量x是连续的实数向量,当x是离散值时,我们就需要采用朴素贝叶斯算法。
朴素贝叶斯的思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯算法的应用,最常见的是文本分类问题,例如邮件是否为垃圾邮件。
对于文本分类问题来说,使用向量空间模型(vector space model,VSM)来表示文本。
什么是向量空间模型?
首先,我们需要有一个词典,词典的来源可以是现有的词典,也可以是从数据中统计出来的词典,对于每个文本,我们用长度等于词典大小的向量表示,如果文本包含某个词,该词在词典中的索引为index,则表示文本的向量的index出设为1,否则为0。
下面以垃圾邮件分类问题为例进行说明:
将邮件作为输入特征,与已有的词典进行比对,如果出现了该词,则把向量的xi=1,否则xi=0,例如:
我们要对p(x|y)建模,但是假设我们的词典有50000个词,那么,如果采用多项式建模的方式,会有
个参数,参数太多了。因此,为了对p(x|y)建模,我们做一个假设,称为朴素贝叶斯假设,由朴素贝叶斯假设推导出的分类器叫做朴素贝叶斯分类器。朴素贝叶斯假设是:假设给定分类y后,特征向量中的各个分量xi是条件独立(conditionally independent)的。也就是说,朴素贝叶斯假设在文本分类问题上是说,文本中出现的某个单词时不会影响其它单词在文本中出现的概率。
因此有:
&nb

本文是关于机器学习中朴素贝叶斯算法的笔记,重点介绍了Laplace平滑和多项式事件模型。通过实例解释了朴素贝叶斯分类器的工作原理,讨论了在文本分类问题中如何使用向量空间模型,并分析了Laplace平滑在解决零概率问题中的作用。此外,还探讨了多项式事件模型与多元伯努利模型的区别。
最低0.47元/天 解锁文章
2778

被折叠的 条评论
为什么被折叠?



