第七章 贝叶斯分类器

第七章 贝叶斯分类器

7.1 贝叶斯决策论

贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法。

对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

在所有情况中取损失最小的。(理想形况下)

欲使用贝叶斯判定标准来最小化决策风险,首先要求后验概率P(c|x)。.然而,在现实任务中这通常难以直接获得。从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率。

其中,P(c)是类“先验“(prior)概率;P(x|c)是样本z 相对于类标记c 的类条件概率(class-conditionalprobability),或称为“似然" (likelihood)。

P(x)是用于归一化的“证据"(evidence)因子。对给定样本x,证据因子P(x) 与类标记无关,因此估计P ( c |x)的问题就转化为如何基于训练数据D 来估计先验P (c)和似然 P (x|c)。

类先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定律,当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计。 对条件概率P(x|c )来说,由于它涉及关于x 所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。直接使用频率来估计P (x|c)显然不可行,因 为 “未被观测到”与 “出现概率为零”通常是不同的。

7.2 极大似然估计

估计条件概率的一种常用策略是先假定其具有某种确定概率分布形式,再基于训练样本对概率分布的参数进行估计。

需注意的是,这种参数化的方法虽能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。

7.3 朴素贝叶斯分类器

不难发现,基于贝叶斯公式来估计后验概率P(c | x) 的主要困难在于:

类条件概率P(x| c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。为避开这个障碍,朴素贝叶斯分类器(naive Bayes classifier)采用了“属性条件独立性假设 " (attribute conditional independence assumption): 对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值