朴素贝叶斯网络进行邮件分类

最新推荐文章于 2023-11-20 20:48:56 发布

翻滚de蛋炒饭

最新推荐文章于 2023-11-20 20:48:56 发布

阅读量635

点赞数

CC 4.0 BY-SA版权

分类专栏： Data Mining 文章标签：朴素贝叶斯邮件分类机器学习分类算法

本文链接：https://blog.youkuaiyun.com/qq_36739040/article/details/118071649

Data Mining 专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了如何使用朴素贝叶斯网络对邮件进行分类，从数据预处理、特征提取到模型构建，包括分词技巧、词汇表构建、模型公式详解以及生词处理方法。通过交叉验证评估模型性能，适用于实际邮件过滤应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

朴素贝叶斯网络进行邮件分类

将以前做的邮件分类做个总结！

总体框架

下面我们将通过以下几个步骤，编写一个现实可用的垃圾邮件过滤器：

准备邮件数据；

创建词汇表；

特征提取；

训练模型；

模型验证；

使用模型。

分词与词汇表创建

删除可能是噪音的词

这一类词主要包括了副词、连词、语气助词、连词等，如常见的“在”、“的”、“而且”之类，其没有明确语义，对垃圾邮件过滤问题没有太大意义。

统一表示与词汇表

邮件体文本是不能被计算机所直接识别的，需要将其转换成计算机能够理解的形式；

一般形式是：[(‘您好’, 1) , (‘恭喜’, 0) , …, (‘谢谢’, 1) ]，前者是出现的词，后者是在对应邮件是否出现。

模型公式与其含义

样本： M封邮件，每份邮件被标记为垃圾邮件或者非垃圾邮件；

目标： 第 M+1封邮件来的时候，判断是否是垃圾邮件；

类别c： 垃圾邮件 $c 1$ ，非垃圾邮件 $c 2$

词汇表： 统计M封邮件中出现的所有单词，记单词数目为N，即形成词汇表。

将每个样本si向量化： 初始化N维向量 $x_i$ ，若词 $w_j$ 在 $s_i$ 中出现，则 $x_{ij}=1$ ，否则，为0。从而得到1000个 $N$ 维向量 $x$ 。
$\frac{P(c)P(x|c)}{P(x)} = \frac{P(c)}{P(x)}\prod_{i=1}^N P(x_i|c)$

对于所有类别来说， $P (x)$ 的值是一致的，所以使用一般直接计算：
$max_{c_i \in C } P(c_i) \prod_{i=1}^N P(x_i|c)$
$P(c|x_i) = max_{c_i \in C } P(c_i) \prod_{i=1}^N P(x_i|c)$
具有最大概率的作为样本 $x_i$ 的类别
$P(c_i) = \frac{|D_{c_i}| + 1}{ |D| + C_i}$
$P(x_i | c_i) = \frac{|D_{c_i,x_i}| + 1}{ |D_{c_i}| + S_i}$

$∣ D ∣$ ：样本总数目（在这儿就是邮件数目）
$D_{c_i}|$ ：第 i 个类别的样本数目Or 类别为 $c_i$ 的样本数目（比如：垃圾邮件的数目，正常邮件的数目）
$D_{c_i, x_i}|$ ：属性值为 $x_i$ ，类别为 $c_i$ 的样本数目
$C$ ：数据集中可能的决策属性（类属性）。（比如：邮件分类是个二分类任务，这儿就是 {0,1}）
$C_n$ ：数据集中可能的决策属性（类属性）的取值数目。（比如：邮件分类是个二分类任务，这儿的取值就是 2 了）
$S_i$ ：第 i 个属性可能的取值数，比如：某个词（属性）存在则取值1，不存在则为0，所以该属性的取值为[0, 1]