假设:
- A(女)是 长短裤都有,B 是都穿长裤(男)
- 则 A ∩ B : 即穿长裤的女生
贝叶斯(可以对概率求逆)
变形:
意思是:求穿长裤的女生概率:分母为长裤人数(即 在B发生下 A 发生的概率)
已知B:比如 已知穿长裤,问是男是女
两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
已知,P(H1)等于0.5,P(E|H1)为一号碗中取出水果糖的概率,等于30÷(30+10)=0.75,那么求出P(E)就可以得到答案。根据全概率公式,
所以,
(因为一般比较相同条件的概率值,他们分母都一样的,所以一般这个全概率都省略了)
将数字代入原方程,得到
这表明,来自一号碗的概率是0.6。也就是说,取出水果糖之后,H1事件的可能性得到了增强。
**
朴素贝叶斯
进行拆分:
进行复杂分类
总结:
**
朴素贝叶斯推断的一些优点:
- 生成式模型,通过计算概率来进行分类,可以用来处理多分类问题。
- 它在接受大数据量训练和查询时所具备的的高速度。即使选用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类页仅仅是针对特征概率的数学运算而已。
- 对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单。
- 朴素贝叶斯分类器的另一大优势是,对分类器实际学习状况的解释还是相对简单的。由于每个特征的概率值都被保存了起来,因此我们可以在任何时候查看数据库,找到最合适的特征来区分垃圾邮件和非垃圾邮件,或是编程语言和蛇。保存在数据库中的这些信息都很有价值,它们有可能被用于其他的应用程序,或者作为构筑这些应用程序的一个良好基础。
朴素贝叶斯推断的一些缺点:
- 对输入数据的表达形式很敏感。
- 由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失。
- 需要计算先验概率,分类决策存在错误率。
- 朴素贝叶斯分类器的最大缺陷就是,它无法处理基于特征组合所产生的变化结果。假设有如下这样一个场景,我们正在尝试从非垃圾邮件中鉴别出垃圾邮件来:假设我们构建的是一个Web应用程序,因为单词“online”市场会出现在你的工作邮件中。而你的好友则在一家药店工作,并且喜欢给你发一些他碰巧在工作中遇到的奇闻趣事。同时,和大多数不善于严密保护自己邮件地址的人一样,偶尔你也会收到一封包含单词”online pharmacy“的垃圾邮件。
也许你已经看出此处的难点–我们往往会告诉分类器”onlie“和”pharmacy“是出现在非垃圾邮件中的,因此这些单词相对于非垃圾邮件的概率会高一些。当我们告诉分类器有一封包含单词”onlie pharmacy“ 的邮件属于垃圾邮件时,则这些单词的概率又会进行相应的调整,这就导致了一个经常性的矛盾。由于特征的概率是单独给出的,因此分类器对于各种组合的情况一无所知。在文档分类中,这通常不是什么大问题,因为一封包含单词”online pharmacy“的邮件中可能还会有其他的特征可以说明它是垃圾邮件,但是在面对其他问题时,理解特征的组合可能是至关重要的。
其它:
朴素贝叶斯的准确率,其实是比较依赖于训练语料的,机器学习算法就和纯洁的小孩一样,取决于其成长(训练)条件,“吃的是草挤的是奶”,但"不是所有的牛奶,都叫特仑苏"。
作者:Jack-Cui
来源:优快云
原文:https://blog.youkuaiyun.com/c406495762/article/details/77341116
版权声明:本文为博主原创文章,转载请附上博文链接!