使用朴素贝叶斯进行文档分类

最新推荐文章于 2024-07-27 11:03:27 发布

原创最新推荐文章于 2024-07-27 11:03:27 发布 · 4.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#朴素贝叶斯分类

ML 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了朴素贝叶斯算法在文档分类中的应用，并详细解释了其背后的数学原理。通过假设文档中的各个词条相互独立，该算法能够有效地计算文档属于不同类别的概率。

朴素贝叶斯文档分类github代码

朴素(naive)贝叶斯之朴素
这里的朴素一词是指，即一个特征或者某个词条(token)的出现的可能性与它和其他单词的相邻性没有关系(当然，这个假设是不合理的，就如水果一词出现在健康一词周围的概率就明显高于出现在不健康一词周围的概率)，另外需要补充的是，这里的每一个特征也假设是同等重要的(也就是说每一个词条只考虑出现与否(set-of-words model),而不会统计它所出现的次数(bag-of-words model))，这个假设同样存在瑕疵，就好像一篇文档中，文档(段落)首段(首句)和末段(末句)的词汇要比其他段落(语句)重要。但我要强调的是，这样的假设的朴素贝叶斯算法的效果却还不错。
算法训练
需要用到的符号， $W^i=(\omega_0^i,\ \omega_1^i,\ \omega_2^i,\ \cdots,\ \omega_n^i)$ 为一个文档向量，其中 $i$ 表示第 $i$ 个文档， $n$ 表示词典大小; $c_i$ 表示第 $i$ 个类别。那么，

$p (c i | W j) = p ( W j | c i ) p ( c i ) p ( W j ),$ $p(c_i|W^j)\ =\ \frac{p(W^j|c_i)p(c_i)}{p(W^j)},$ 进一步地，通过朴素贝叶斯假设，我们可以将上式写为
$p ( ω j 0 | c i ) * p ( ω j 1 | c i ) * p ( ω j 2 | c i ) * \dots * p ( ω j n | c i ) * p ( c i ) p ( W j ), 其中 p (W j) 为常数$ $\frac{p(\omega^j_0|c_i)*p(\omega^j_1|c_i)*p(\omega^j_2|c_i)*\cdots *p(\omega^j_n|c_i)*p(c_i)}{p(W^j)},其中p(W^j)为常数$
这样就可以计算出文档为类别 $c_i$ 的可能性大小了，接下来就只需要求， $max n p (c i | W j) ，其中 n 为类别的数目$ $\mathop\max_np(c_i|W^j)，其中n为类别的数目$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。