【ML小结7】贝叶斯分类器:朴素、半朴素贝叶斯

本文介绍了贝叶斯分类器的基本原理,包括贝叶斯公式和模型表示。重点讨论了朴素贝叶斯分类器,阐述了其基于属性条件独立性的假设,以及在实际应用中的优点和缺点。同时,提到了半朴素贝叶斯分类器作为对条件独立假设的改进,考虑了部分属性间的依赖关系。内容涉及垃圾邮件识别等实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

贝叶斯分类器在预先给定代价的情况下平均风险最小的分类器。
分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率。

贝叶斯分类器的基础

贝叶斯公式

P(H∣X)=P(X∣H)P(H)P(X)P(H|X)=\frac{P(X|H)P(H)}{P(X)}P(HX)=P(X)P(XH)P(H)其中,X表示n个属性的测量描述;
H为某种假设,比如假设某观察值X属于某个特定的类别C;
P(X)则是X的先验概率, P(H)也是先验概率;
P(X|H)是类条件概率,也叫似然;
P(H|X)是后验概率,即在条件X下,H的后验概率;

对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到假设H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。

举个栗子,假设数据属性仅限于用教育背景和收入来描述顾客,而X是学历是硕士,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机。

  • P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;
  • P(X|H)则表示如果已知顾客将购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;
  • P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;
  • P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。

模型表示

对每个样本xxx选择能使后验概率P(c∣x)P(c|x)P(cx)最大的类别标记:
(1)h∗(x)=argmax⁡c∈YP(c∣x)=argmax⁡c∈YP(x∣c)P(c)P(x)h^*(x)=arg\max_{c\in \mathcal Y} P(c|x)=arg\max_{c\in \mathcal Y} \frac{P(x|c)P(c)}{P(x)}\tag 1h(x)=argcYmaxP(cx)=argcYmax

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值