【机器学习】Lesson 4 - 朴素贝叶斯（NB）文本分类

lu rong_qq

于 2024-11-06 16:13:48 发布

阅读量1.9k

点赞数 43

CC 4.0 BY-SA版权

分类专栏： 0帧起手学ai 文章标签：算法人工智能机器学习

本文链接：https://blog.youkuaiyun.com/lu_rong_qq/article/details/143287429

0帧起手学ai 专栏收录该内容

12 篇文章

订阅专栏

背景

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理（即条件概率）的简单高效的分类算法，广泛应用于文本分类和其他监督学习任务。朴素贝叶斯算法假设特征之间相互独立，这一假设使得算法运算简洁，适合处理高维度数据。

本文将使用朴素贝叶斯对垃圾邮件进行分类，数据集以及完整跑通代码见文首绑定资源。

一、适用数据集

朴素贝叶斯算法具有高效性和良好的扩展性，适合处理高维度（数千到数万特征）和大规模（数千到百万级数据行）的数据集，特别是在特征相对独立的情况下，性能会更加优越。在实际应用中，具体的维度和数据行数量还需根据可用的计算资源和任务复杂性进行评估。

1. 数据集选择

朴素贝叶斯（NB）适用于文本分类问题，练习时在选择数据集是可参考以下 3 个方面。反过来，如果在为项目选择合适的算法模型时，数据集符合以下条件时，可考虑选用朴素贝叶斯进行分析处理。

1.1 适用领域

文本分类

垃圾邮件过滤：朴素贝叶斯是邮件分类中的经典方法，可以有效区分垃圾邮件和正常邮件。其假设每个词语独立贡献信息，有助于快速判断邮件的类别。
情感分析：可用于情感分析任务，特别是判断评论或社交媒体上的文本情绪（如积极或消极）。这种任务的文本数据特征可以独立统计，因此朴素贝叶斯通常表现较好。
文档主题识别：朴素贝叶斯广泛应用于文档主题识别任务中，通过统计每个类别的关键词出现概率，帮助区分文档的主要主题。比如，将一批文档区分为“技术”、“金融”、“健康”等类别。

内容推荐：在简单推荐系统中用于根据用户历史行为对内容进行分类和推荐，尤其是文本型内容。例如，对一组产品描述或影评进行分类，为用户推荐相关产品。

医疗诊断：在医学应用中，用于对症状组合的分类和预测，例如根据病人症状预测疾病类型。其优势在于能通过独立假设快速处理较多的特征，适合于诊断大量症状的医学数据。

欺诈检测：用于检测金融交易的欺诈行为，通过朴素贝叶斯快速学习欺诈模式并做出分类，例如区分正常交易和可疑交易。

语言识别和拼写纠正：用于语言识别任务中，区分文本语言类型（如英语和法语）。在拼写纠正中，基于历史数据统计拼写错误的发生概率，识别最可能的正确拼写。

1.2 数据集维度（特征数）

朴素贝叶斯能够有效处理数千到数万甚至更多的特征。尤其在文本分类中，特征数通常较高（如词汇表中的单词数）。

1.3 数据行数

朴素贝叶斯能够处理千级、万级到百万级的数据行，许多文本分类任务中的数据集（如电子邮件、社交媒体数据等）都能在此范围内良好工作。

由于其基于概率的计算方式，朴素贝叶斯的训练时间复杂度为 $O(n \cdot d)$ ，其中 n 是样本数量，d 是特征数量。这使得它在内存和计算资源有限的情况下依然能高效运行。

2. 本文数据集介绍

SMS Spam Collection Dataset 包含来自真实用户的短信，是一个广泛用于文本分类和机器学习研究的经典数据集，专门用于垃圾短信（spam）和正常短信（ham）的分类。常被用于测试各种机器学习算法，尤其是朴素贝叶斯算法。

2.1 数据集特征

样本数量：数据集中包含 5,572 条短信记录。
特征描述：
- Target：短信的类别，取值为 "spam" 或 "ham"。
- Text：短信的文本内容。

2.2 数据格式

数据集通常以 CSV 格式存储，每行对应一条短信记录。具体的列结构如下：

Target	Text
ham	Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...
spam	Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's

3. 数据集下载

数据集下载地址：https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset

也可以在文章绑定资源中直接下载获取。

二、算法原理

1. 朴素贝叶斯定理

朴素贝叶斯基于贝叶斯定理：

$P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}$

其中，P(A∣B) 是在已知条件 B 下事件 A 的后验概率。对于朴素贝叶斯算法，算法通过最大化后验概率来判断类别标签。朴素假设意味着各特征之间独立，因此可以将联合概率简化为各个特征的独立概率的乘积，这样大大减少了计算复杂度。得到联合概率分布后，概率估计方法可以是极大似然估计或贝叶斯估计。

2. 算法逻辑

朴素贝叶斯法的基本假设是条件独立性，

这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。

朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

将输入 x 分到后验概率最大的类 y。

后验概率最大等价于0-1损失函数时的期望风险最小化。

3. 运行步骤

朴素贝叶斯算法的步骤如下：

计算各类别的先验概率：统计每个类别在训练数据中出现的频率。
计算每个特征在各类别下的条件概率：假设特征间独立，计算每个特征在特定类别下出现的概率。
应用贝叶斯定理：将样本数据代入公式，计算后验概率，并选择具有最大后验概率的类别作为分类结果。

4. 更多延申模型

朴素贝叶斯对应的包名称为 naive_bayes，在其下可以选用所种模型：

模型名称	可导入包名称
高斯贝叶斯	GaussianNB
多项式贝叶斯	MultinomialNB
伯努利贝叶斯	BernoulliNB

如选用多项式贝叶斯模型时，代码如下：

from sklearn.naive_bayes import MultinomialNB

三、代码

本篇代码包含多张图片以及完整注释，建议在文章绑定资源中下载完整代码查看。