用起来不太朴素的朴素贝叶斯及其Python实现

原创

于 2017-10-07 12:32:03 发布 · 3.8k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #贝叶斯 #朴素贝叶斯 #机器学习

本文介绍了朴素贝叶斯分类器的工作原理，包括贝叶斯定理的应用和属性条件独立性假设。虽然朴素，但在许多情况下表现良好。Python实现表明，朴素贝叶斯分类器在葡萄酒数据集上的准确率高达95%-100%。

作为一个听起来非常Naive的分类器，Naive Bayes Classifier使用了“属性条件独立性假设”，也就是假设所有属性相互独立。分类器的目的，是对任一测试样本 $x$ ,利用贝叶斯定理求出后验概率最大的输出类。假设y一共可以取N个标签， $y_{c}$ 代表第c类。那么我们来看一下贝叶斯定理：

P (y c | x) = P ( y c ) P ( x | y c ) P ( x )

$P(y_{c}|x)=\frac{P(y_{c})P(x|y_{c})}{P(x)}$

来直观理解一下贝叶斯定理，左边，求的是当我们拿到了一个新样本 $x$ ，它属于 $y_{c}$ 这一类的概率有多大？右边， $P(y_{c})$ 代表了类别的先验概率，可以理解为在拿到样本之前，认为某一类出现的概率有多大，这个概率是已知的，也是通过统计得到的，比如说，我统计了过往一千年杭州地区国庆节的下雨情况，那么就可以推断出今年的下雨概率。那么后验概率，就是在先验概率的基础上进行修正得到的。在这个例子中，后验概率就是式子左边，我们想要得到的东西，如果我们没有额外的信息，我们就直接根据先验概率——过往千年的下雨统计概率得到它。但是现在，有了额外信息， $x$ 中明天是否有台风的这个属性变为1，也就是我们知道国庆节要来台风了，那是否对国庆节下雨的概率要加一个修正？这个修正就是右边存在的意义。

我们来看一下贝叶斯定理的计算。 P(y

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。