我的基于多项式朴素贝叶斯实现垃圾短信识别实验

基于多项式朴素贝叶斯实现垃圾短信识别

一、实验内容

使用贝叶斯网络模型基于短信数据集实现垃圾短信识别。

二、实验目标

  • 掌握贝叶斯网络模型
  • 熟悉将文本转换为可处理向量的方法
  • 熟练使用分词框架jieba分词相关API
  • 熟悉数据集划分方法K折交叉验证

三、实验环境

  • 操作系统:Ubuntu16
  • 工具软件:jupyter notebook、Python 3.6.13
  • 硬件环境:无特殊要求
  • 核心库:
    • jieba 0.42.1
    • pandas 1.1.5
    • numpy 1.19.4
    • scikit-learn 0.24.2

四、实验原理

1 贝叶斯网络

贝叶斯方法源域它生前为解决一个“逆概”问题写的一篇文章。其要解决的问题:

正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大

逆向概率:如果我们事先不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或者好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例做出什么样的推测。

那么什么是贝叶斯呢?

  • 现实世界本身就是不确定的,人类的观察能力是有局限性的
  • 我们日常观察到的只是事物表明上的结果,因此我们需要提供一个猜测

NaiveBayes算法,又称朴素贝叶斯算法。朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于监督学习的生成模型,实现监督,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。

朴素贝叶斯会单独考量每一维独立特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,朴素贝叶斯的基本数据假设是:各个维度上的特征被分类的条件概率之间是相互独立的。它经常被用于文本分类中,包括互联网新闻的分类,垃圾邮件的筛选。

朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,即认为此待分类项属于哪个类别。

三种常见的贝叶斯网络
  • 多项式模型(MultinomialNB)
    • 多项式朴素贝叶斯常用语文本分类,特征是单词,值时单词出现的次数。
    • from sklearn.naive_bayes import MultinomialNB
  • 高斯模型(GaussianNB)
    • 当特征是连续变量的时候,假设特征分布为正态分布,根据样本算出均值和方差,再求得概率。
    • from sklearn.naive_bayes import GaussianNB
  • 伯努利模型(BernoulliNB)
    • 伯努利模型适用于离散特征的情况,伯努利模型中每个特征的取值只能是1和0。

2 结巴分词

"结巴"中文分词:做最好的Python中文分词组件 “Jieba”

  • git地址 https://github.com/rainforest32/jieba
  • 安装 pip install jieba
特征
  • 支持三种分词模式:
    • 精确模式,试图将句子最精确地切开,适合文本分析;
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  • 支持繁体分词
  • 支持自定义词典
功能分词
  • jieba.cut 方法接受两个输入参数: 1) 第一个参数为需要分词的字符串; 2)cut_all参数用来控制是否采用全模式
  • jieba.cut_for_search 方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
  • 注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
  • jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),也可以用 list(jieba.cut(…)) 转化为 list

代码示例

#encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print "Full Mode:", "/ ".join(seg_list) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print "Default Mode:", "/ ".join(seg_list) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") 
print ", ".join(seg_list) # 默认是精确模式

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
<think>嗯,我现在要理解多项式朴素贝叶斯(Multinomial Naive Bayes,简称MNB)。首先,我知道朴素贝叶斯是一种基于贝叶斯定理的分类算法,而“朴素”是因为它假设特征之间相互独立。不过,多项式朴素贝叶斯具体是怎么工作的呢?可能和数据的分布有关吧? 我记得朴素贝叶斯有几种变体,比如高斯朴素贝叶斯适用于连续数据,伯努利朴素贝叶斯适用于二值特征。那么多项式朴素贝叶斯可能适用于离散数据,特别是计数型数据,比如文本分类中的词频统计?比如在文档分类里,每个特征可能表示某个单词的出现次数,这时候多项式分布可能更合适? 接下来,我需要了解多项式朴素贝叶斯的数学基础。贝叶斯定理是基础,即后验概率等于似然乘先验概率除以证据。公式应该是这样的:$$P(y | \mathbf{x}) = \frac{P(\mathbf{x} | y) P(y)}{P(\mathbf{x})}$$ 其中,y是类别,x是特征向量。不过因为所有类别的分母P(x)都一样,所以在比较时只需要比较分子部分,也就是P(x|y)P(y)。 由于特征独立性的假设,联合概率P(x|y)可以分解为各个特征的条件概率的乘积:$$P(\mathbf{x} | y) = \prod_{i=1}^{n} P(x_i | y)$$ 这里的n是特征的数量,x_i是第i个特征的值。 那么,在多项式朴素贝叶斯中,特征的条件概率P(x_i|y)是如何计算的?可能和多项式分布有关。多项式分布适用于多个类别的计数数据,例如某个词在文档中出现的次数。这时候,假设在给定类别y的情况下,每个特征x_i(比如单词的出现次数)服从多项式分布。因此,条件概率的计算可能涉及到频率统计,加上平滑处理(如拉普拉斯平滑)来避免零概率问题。 具体来说,多项式朴素贝叶斯在训练时,会统计每个类别下各个特征的频率。例如,在文本分类中,对于每个类别y,计算某个词w在y类文档中的出现次数占总词数的比例,再加上平滑项。公式大概是这样的:$$P(w_i | y) = \frac{count(w_i, y) + \alpha}{count(y) + \alpha V}$$ 这里,count(w_i, y)是类别y中词w_i的出现次数,count(y)是类别y的总词数,V是词汇表的大小,α是平滑参数(通常α=1,即拉普拉斯平滑)。 当进行预测时,对于一个新的样本,比如一个文档,模型会计算每个类别y的后验概率,取最大的那个作为预测结果。计算的时候,特征向量x中的每个元素x_i表示词w_i的出现次数,所以整个联合概率的对数(为了避免下溢)会是各个特征的对数条件概率乘以x_i次,再加上类别的先验概率的对数。即:$$\log P(y | \mathbf{x}) \propto \log P(y) + \sum_{i=1}^{n} x_i \cdot \log P(w_i | y)$$ 这里可能需要进一步解释,为什么会有x_i乘以对数概率?因为每个特征的条件概率P(w_i|y)是独立出现的概率,而在多项式模型中,每个词出现x_i次,所以总的似然应该是P(w_i|y)的x_i次方,所以取对数后变成x_i乘以log P(w_i|y)。 应用场景方面,多项式朴素贝叶斯常用于文本分类,比如垃圾邮件检测、情感分析等,这些情况下特征通常是词频或者TF-IDF值。和伯努利模型不同,伯努利模型关注的是是否出现(二值),而多项式模型关注的是出现次数。 不过,有没有什么需要注意的地方呢?比如,特征之间的独立性假设在现实中很难满足,但实际应用中效果可能还是不错的。另外,数据稀疏的问题,通过拉普拉斯平滑来处理,这点很重要,否则未出现的词会导致概率为零,整个乘积为零。 还有,多项式朴素贝叶斯的先验概率P(y)通常是训练集中每个类别的频率,或者可以自己设定。如果样本不均衡,可能需要调整先验或者使用其他处理方式。 总结一下步骤的话,大概是: 1. 准备数据,将文本转换为词频向量。 2. 计算每个类别的先验概率P(y)。 3. 计算每个特征在每个类别下的条件概率P(w_i|y),应用平滑。 4. 预测时,计算每个类别的对数概率,选择最大的。 可能还需要举个例子来说明。比如,有两个类别的文档,体育和科技,统计每个词在各类中的出现次数,然后对于新文档,计算属于哪一类的概率更高。 不过,有没有可能弄混淆多项式朴素贝叶斯和其他的变体?比如,当特征是二值的时候,应该用伯努利,而如果是计数或频率,用多项式。而高斯则是连续数据。 现在,有没有哪里理解错了?比如,多项式分布的条件概率是否正确,或者拉普拉斯平滑的应用是否正确? 再查一下资料,确认多项式朴素贝叶斯的条件概率公式是否如上述,是的,当特征表示的是次数时,使用上述的公式计算条件概率,其中考虑了次数,而伯努利模型只考虑是否出现。因此,在文本分类中,如果使用词频作为特征,多项式模型更合适;如果使用是否出现作为特征,伯努利模型更合适。 另外,多项式模型也可以处理TF-IDF值,虽然TF-IDF是连续值,但多项式模型通常期望的是计数,所以可能需要适当处理,比如离散化或者直接使用,但实际应用中可能还是可以工作,不过可能不符合理论假设。 最后,多项式朴素贝叶斯的优缺点是什么?优点是简单、高效,特别适合高维数据,如文本分类。缺点当然是特征独立的假设太强,可能影响准确性,还有对输入数据的分布假设(多项式分布)可能与实际情况不符。</think>多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)是一种基于贝叶斯定理与特征独立性假设的分类算法,特别适用于**离散特征**的场景,如文本分类中的词频统计。以下是逐步介绍: --- ### **1. 核心思想** - **贝叶斯定理**:计算后验概率 $$P(y | \mathbf{x}) \propto P(\mathbf{x} | y) \cdot P(y)$$,通过比较不同类别$y$的分子部分(忽略分母$P(\mathbf{x})$)进行分类。 - **“朴素”假设**:特征之间条件独立,即 $$P(\mathbf{x} | y) = \prod_{i=1}^n P(x_i | y)$$,其中$x_i$是第$i$个特征的值。 - **多项式分布**:假设特征服从多项式分布,适用于**计数型数据**(如单词出现次数)。 --- ### **2. 算法步骤** #### **2.1 训练阶段** 1. **计算先验概率**: $$P(y) = \frac{\text{类别$y$的样本数}}{\text{总样本数}}$$ 例如,训练集中有60%的“体育”类文档,则$P(\text{体育})=0.6$。 2. **计算条件概率**(拉普拉斯平滑): 对每个特征$x_i$(如单词$w_i$)在类别$y$下的条件概率: $$P(w_i | y) = \frac{\text{count}(w_i, y) + \alpha}{\sum_{j=1}^V \text{count}(w_j, y) + \alpha V}$$ - $\text{count}(w_i, y)$:单词$w_i$在类别$y$中的总出现次数。 - $\sum_{j=1}^V \text{count}(w_j, y)$:类别$y$中所有单词的总次数。 - $V$:词汇表大小,$\alpha$为平滑参数(通常$\alpha=1$)。 --- #### **2.2 预测阶段** 对输入样本$\mathbf{x} = (x_1, x_2, ..., x_n)$(如文档的词频向量),计算每个类别$y$的**对数后验概率**(避免数值下溢): $$\log P(y | \mathbf{x}) \propto \log P(y) + \sum_{i=1}^n x_i \cdot \log P(w_i | y)$$ - $x_i$:特征$w_i$在样本中的出现次数。 - 选择使上式最大的类别作为预测结果。 --- ### **3. 应用场景** - **文本分类**:如垃圾邮件识别、情感分析(特征为词频或TF-IDF)。 - **推荐系统**:用户行为计数(如点击次数)。 - **其他离散特征数据**:如文档中单词、DNA序列中的碱基。 --- ### **4. 与伯努利朴素贝叶斯的区别** | 特性 | 多项式朴素贝叶斯 | 伯努利朴素贝叶斯 | |---------------------|------------------------------|------------------------------| | **特征类型** | 计数(如词频) | 二值(如是否出现) | | **条件概率公式** | 基于多项式分布 | 基于伯努利分布 | | **适用场景** | 长文本、关注词频 | 短文本、关注是否出现 | --- ### **5. 优缺点** - **优点**: - 计算高效,适合高维数据(如文本)。 - 对小规模数据表现良好。 - 拉普拉斯平滑可缓解零概率问题。 - **缺点**: - 独立性假设过强,忽略特征间相关性。 - 对输入分布的假设可能不符合实际(如非计数数据)。 --- ### **6. 示例(文本分类)** 假设训练集包含两类文档: - **体育类**:包含“比赛”“进球”等高频词。 - **科技类**:包含“算法”“数据”等高频词。 对句子“数据算法助力比赛分析”,MNB会: 1. 统计每个词在两类中的条件概率(如$P(\text{数据} | \text{科技})$较高)。 2. 结合先验概率,计算句子属于“科技”或“体育”的对数概率。 3. 选择概率更高的类别作为预测结果。 --- ### **总结** 多项式朴素贝叶斯是处理**离散计数数据**的利器,尤其在文本分类中广泛应用。尽管其独立性假设简化了计算,但在实际中仍可能表现优异,是入门机器学习的高效工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值