19、概率学习:使用朴素贝叶斯进行分类

概率学习:使用朴素贝叶斯进行分类

1. 朴素贝叶斯算法概述

在处理机器学习问题时,对于数值数据的懒惰分类在之前已有介绍。但当遇到标称特征或文本数据时,该如何处理呢?这里将探索用于分类数据的一些技术,尤其是朴素贝叶斯算法。

贝叶斯分类器利用训练数据,基于所有特征计算每个类别的观测概率,这个概率就像一张地图,将特征值与类别联系起来。在对测试数据进行标记时,我们利用测试数据中的特征值和这张“地图”,将测试数据分类到最可能的类别中。虽然这个想法看似简单,但对应的算法实现可能非常复杂。

朴素贝叶斯算法常用于文本分类,它基于获取每个特征在给定类别变量值下的条件概率密度函数,来进行最大后验类别标签分配。

2. 朴素贝叶斯的假设

朴素贝叶斯得名于其“朴素”的假设,其中最重要的假设是所有特征具有同等重要性且相互独立。在现实世界的数据中,这种情况很少出现。然而,有时即使这些假设被违反,朴素贝叶斯仍然能有相当准确的表现,特别是当特征数量 $p$ 很大时。这就是为什么朴素贝叶斯算法可以作为强大的文本分类器。

此外,二次判别分析(QDA)、线性判别分析(LDA)和朴素贝叶斯分类之间存在有趣的关系,更多关于 LDA 和 QDA 的信息可在线获取(http://wiki.socr.umich.edu/index.php/SMHS_BigDataBigSci_CrossVal_LDA_QDA)。

3. 贝叶斯公式
3.1 集合论贝叶斯公式

假设 $B_i$($i = 1, 2, …, n$,$n$ 代表特征数量)是互斥事件。如果 $A$ 和 $B$ 是两个事件,贝叶斯条件概率公式如

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值