如何理解朴素贝叶斯模型

本文深入浅出地介绍了概率论中的后验概率、先验概率和似然估计等基础概念,并通过贝叶斯公式进行详细解释。以工作选择案例展示了如何应用朴素贝叶斯分类算法进行决策,解释了特征与结果之间的概率关系,强调了独立分布假设的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文献:

【1】https://blog.youkuaiyun.com/qq_23947237/article/details/78265026

【2】 带你理解朴素贝叶斯分类算法 - 知乎

【3】详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解_nebulaf91的博客-优快云博客_最大后验估计

  • 关于几个基础概念的理解:

后验概率:

(1)实质上是指已知事件的结果,根据结果去估计事件的原因的概率分布;

(2)为便于理解,其伪公式可以写为P(因|果),数学上的表达为P(θ|x);

先验概率:

(1)实质上是指事件本身的结果并未产生,而根据历史规律估计原因的概率分布;

(2)为了便于理解,其伪公式可以写为P(因),数学上的表达为P(θ);

似然估计与似然函数:

(1)已知某原因,根据该原因来估计结果的概率分布即为似然估计;

(2)已知某原因,根据该原因来统计各种可能产生的结果的概率的函数为似然函数;

(3)为方便理解,似然估计伪公式可以写为P(果|因),数学表达式就是P(x|θ);

再识贝叶斯公式:

贝叶斯公式为:

写为更为容易理解的数学表达为:

按照定义的描述也就是:

其中,evidence指的是不必关注原因的情况下结果的概率分布情况,

对于上式,可以理解为:结果x原因为θ的概率=原因θ产生结果x的概率/结果x的概率。进一步,更容易理解的方式可以认为是,由于原因θ产生结果x的数量为A,由各种原因(我们不关注具体是什么原因)产生所有结果x的数量为B,自然A/B就是在结果x上原因为θ的概率。

案例分析

我们可以假设某个工作选择的案例,定义影响工作选择的因素(特征)包括收入(高/低)、位置(远/近)、规模(大/小),根据各个特征的选择不同来确定选择或不选择某工作。即:

特征:{收入(高/低)、位置(远/近)、规模(大/小)}

结果:{选择/不选择}

在上述知识背景下,再来看朴素贝叶斯公式对该二分类问题中的转换形式为:

也就是说,如果推理“{收入高、位置远、公司规模大}的选择结果”实际上就只需要计算出的概率也就得出了预测结果。

下面分别计算:

上式在满足独立分布原则的前提下,即:

对于式中,自然可以通过训练数据集进行计算,因此对于很容易得出,而如法炮制。在得到上述两个概率值的大小后,预测结果应该是“选择”或“不选择”的哪一者也就一目了然了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Felier.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值