朴素贝叶斯的垃圾邮件分类

最新推荐文章于 2023-11-12 20:08:54 发布

原创

最新推荐文章于 2023-11-12 20:08:54 发布 · 1.5k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #数据挖掘 #人工智能

数据集：本次实验中，所采用的数据集为Enron Email Dataset。该数据集已经对正常邮件和垃圾邮件进行了分类。下载保存到本文件目录中。

代码实现过程：

1.导包

2.读入数据：读入了所有邮件内容和标签，其中邮件内容存储在data中，标签存储在target当中，“1”表示为垃圾邮件，“0”表示为正常邮件。

3.定义一个类对数据进行预处理

4.数据处理：①计算（对数）类先验，即计算P（垃圾邮件）和P（正常邮件）；②词汇表（即正常邮件和垃圾邮件中出现的所有单词，方便进行拉普拉斯平滑）；③垃圾邮件和非垃圾邮件的词频，即给定词在垃圾邮件和非垃圾邮件中出现的次数。

5.定义一个类 SpamDetector对测试集进行测试

代码：

import os
import re
import string
import math
DATA_DIR = 'enron'
target_names = ['ham', 'spam']
def get_data(DATA_DIR):
subfolders = ['enron%d' % i for i in range(1,7)]
data = []
target = []
for subfolder in subfolders:
# spam
spam_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'spam'))
for spam_file in spam_files:
with open(os.path.join(DATA_DIR, subfolder, 'spam', spam_file), encoding="latin-1") as f:
data.append(f.read())
target.append(1)
# ham
ham_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'ham'))
for ham_file in ham_files:
with open(os.path.join(DATA_DIR, subfolder, 'ham', ham_file), encoding="latin-1") as f:
data.append(f.read())
target.append(0)
return data, target

X, y = get_data(DATA_DIR)

class SpamDetector_1(object):
"""Implementation of Naive Bayes for binary classification"""
#清除空格
def clean(self, s):
translator = str.m