概率学习:使用朴素贝叶斯进行分类
1. 朴素贝叶斯算法概述
在处理机器学习问题时,对于数值数据的懒惰分类在之前已有介绍。但当遇到标称特征或文本数据时,该如何处理呢?这里将探索用于分类数据的一些技术,尤其是朴素贝叶斯算法。
贝叶斯分类器利用训练数据,基于所有特征计算每个类别的观测概率,这个概率就像一张地图,将特征值与类别联系起来。在对测试数据进行标记时,我们利用测试数据中的特征值和这张“地图”,将测试数据分类到最可能的类别中。虽然这个想法看似简单,但对应的算法实现可能非常复杂。
朴素贝叶斯算法常用于文本分类,它基于获取每个特征在给定类别变量值下的条件概率密度函数,来进行最大后验类别标签分配。
2. 朴素贝叶斯的假设
朴素贝叶斯得名于其“朴素”的假设,其中最重要的假设是所有特征具有同等重要性且相互独立。在现实世界的数据中,这种情况很少出现。然而,有时即使这些假设被违反,朴素贝叶斯仍然能有相当准确的表现,特别是当特征数量 $p$ 很大时。这就是为什么朴素贝叶斯算法可以作为强大的文本分类器。
此外,二次判别分析(QDA)、线性判别分析(LDA)和朴素贝叶斯分类之间存在有趣的关系,更多关于 LDA 和 QDA 的信息可在线获取(http://wiki.socr.umich.edu/index.php/SMHS_BigDataBigSci_CrossVal_LDA_QDA)。
3. 贝叶斯公式
3.1 集合论贝叶斯公式
假设 $B_i$($i = 1, 2, …, n$,$n$ 代表特征数量)是互斥事件。如果 $A$ 和 $B$ 是两个事件,贝叶斯条件概率公式如
超级会员免费看
订阅专栏 解锁全文
80

被折叠的 条评论
为什么被折叠?



