朴素贝叶斯文本分类过程

本文介绍了朴素贝叶斯文本分类的基本概念和过程,包括多项式模型和伯努利模型的应用。通过实例展示了如何计算先验概率、最大似然概率和后验概率,从而进行文本分类。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于上一篇Bayes 的基本概念 比较清晰和熟悉之后,迫不及待的想要看到其进一步应用。因为朴素贝叶斯(naive bayes :不是yes就是no)假设事物属性之间相互条件独立,于是选择文本分类来进一步认识。

本片博文参考http://my.oschina.net/zhukp/blog/56724  ;http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.html

 1、基本定义

    分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即X=(x1,x2,x3,…,xn),用X这个向量来代表这个事物;类别也有很多种,用集合C={c1,c2,…cm}表示。一般X和C的关系是不确定的,可以将X和C看作是随机变量.

    我们做分类的目标就是给定一个新的属性集合,结合训练集的知识,判断这个新来的集合属于C的哪一类的概率最大。数学表达为 Cmap=ARGMAX P(C|x1,x2,x3,…,xn).

2、文本分类过程

    例如文档:Good good study Day day up可以用一个文本特征向量来表示,x=(Good, good, study, Day, day , up)。在文本分类中,假设我们有一个文档d∈X,类别c又称为标签。我们把一堆打了标签的文档集合<d,c>作为训练样本,<d,c>∈X×C。例如:<d,c>={Beijing joins the World Tr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值