朴素贝叶斯 :
适用于 文本分类,垃圾邮件识别等
思想:计算出 预测样本属于 , 每一种类别分别的概率,然后取概率最大的类别 作为预测类别


朴素贝叶斯公式

C:代表类别class,例如科技类
W:预测文档提取出的关键词 w1```````wn
P(属于科技概率|预测文档的特征值)
=[ p(出现预测文档多个特征值的概率|科技类文档条件下)p(科技类文章占全部文档的概率) ] / p(预测文档出现这些特征值的概率)
=【p(出现预测文档特征值词语1的概率|科技类文档的条件下) p(出现预测文档特征值词语2的概率|科技类文档的条件下)*……… p(特征值词语n的概率|科技类文档的条件下)】*p(科技类文章占全部文档的概率) / p(预测文档出现这些特征值的概率)

本文介绍了朴素贝叶斯分类算法在文本分类,如垃圾邮件识别中的应用。核心思想是计算预测样本属于各类别的概率,并选择概率最大的类别作为预测结果。在 sklearn 中,朴素贝叶斯算法可以通过拉普拉斯平滑系数调整概率估计,通常α取1。通过比较类别的概率分母,可以简化计算。最后提到了使用sklearn库进行预测的API。
最低0.47元/天 解锁文章
602

被折叠的 条评论
为什么被折叠?



