机器学习(三):朴素贝叶斯

假设:

  • A(女)是 长短裤都有,B 是都穿长裤(男)
  • 则 A ∩ B : 即穿长裤的女生

在这里插入图片描述

贝叶斯(可以对概率求逆)

在这里插入图片描述

变形:
在这里插入图片描述
意思是:求穿长裤的女生概率:分母为长裤人数(即 在B发生下 A 发生的概率)
已知B:比如 已知穿长裤,问是男是女

在这里插入图片描述
两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
在这里插入图片描述
已知,P(H1)等于0.5,P(E|H1)为一号碗中取出水果糖的概率,等于30÷(30+10)=0.75,那么求出P(E)就可以得到答案。根据全概率公式,

在这里插入图片描述
所以,
在这里插入图片描述
(因为一般比较相同条件的概率值,他们分母都一样的,所以一般这个全概率都省略了)

将数字代入原方程,得到
在这里插入图片描述
这表明,来自一号碗的概率是0.6。也就是说,取出水果糖之后,H1事件的可能性得到了增强。
**

朴素贝叶斯

在这里插入图片描述
进行拆分:
在这里插入图片描述
进行复杂分类

总结:

**
朴素贝叶斯推断的一些优点:

  • 生成式模型,通过计算概率来进行分类,可以用来处理多分类问题。
  • 它在接受大数据量训练和查询时所具备的的高速度。即使选用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类页仅仅是针对特征概率的数学运算而已。
  • 对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。
  • 朴素贝叶斯分类器的另一大优势是,对分类器实际学习状况的解释还是相对简单的。由于每个特征的概率值都被保存了起来,因此我们可以在任何时候查看数据库,找到最合适的特征来区分垃圾邮件和非垃圾邮件,或是编程语言和蛇。保存在数据库中的这些信息都很有价值,它们有可能被用于其他的应用程序,或者作为构筑这些应用程序的一个良好基础。

朴素贝叶斯推断的一些缺点:

  • 对输入数据的表达形式很敏感。
  • 由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失。
  • 需要计算先验概率,分类决策存在错误率。
  • 朴素贝叶斯分类器的最大缺陷就是,它无法处理基于特征组合所产生的变化结果。假设有如下这样一个场景,我们正在尝试从非垃圾邮件中鉴别出垃圾邮件来:假设我们构建的是一个Web应用程序,因为单词“online”市场会出现在你的工作邮件中。而你的好友则在一家药店工作,并且喜欢给你发一些他碰巧在工作中遇到的奇闻趣事。同时,和大多数不善于严密保护自己邮件地址的人一样,偶尔你也会收到一封包含单词”online pharmacy“的垃圾邮件。

也许你已经看出此处的难点–我们往往会告诉分类器”onlie“和”pharmacy“是出现在非垃圾邮件中的,因此这些单词相对于非垃圾邮件的概率会高一些。当我们告诉分类器有一封包含单词”onlie pharmacy“ 的邮件属于垃圾邮件时,则这些单词的概率又会进行相应的调整,这就导致了一个经常性的矛盾。由于特征的概率是单独给出的,因此分类器对于各种组合的情况一无所知。在文档分类中,这通常不是什么大问题,因为一封包含单词”online pharmacy“的邮件中可能还会有其他的特征可以说明它是垃圾邮件,但是在面对其他问题时,理解特征的组合可能是至关重要的。

其它:
朴素贝叶斯的准确率,其实是比较依赖于训练语料的,机器学习算法就和纯洁的小孩一样,取决于其成长(训练)条件,“吃的是草挤的是奶”,但"不是所有的牛奶,都叫特仑苏"。

作者:Jack-Cui
来源:优快云
原文:https://blog.youkuaiyun.com/c406495762/article/details/77341116
版权声明:本文为博主原创文章,转载请附上博文链接!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值