python垃圾邮件过滤_垃圾邮件过滤器Python newbi

最新推荐文章于 2024-07-29 15:51:04 发布

原创最新推荐文章于 2024-07-29 15:51:04 发布 · 641 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python垃圾邮件过滤

这篇博客讲述了使用Python实现垃圾邮件过滤器的过程，包括应用三种不同的朴素贝叶斯分类器（伯努利、多项式和高斯），并计算它们的精度得分。虽然已经完成了数据集的读取和划分，但尚未进行交叉验证来确定邮件是否为垃圾邮件。作者对于如何从最后一列判断垃圾邮件数量感到困惑。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我需要能够处理数据集，应用我的分类算法(我选择了3个朴素的bayes版本)，打印精度得分到终端，并执行5到10倍交叉验证，找出有多少电子邮件是垃圾邮件。

正如你所看到的，我已经完成了一些任务，但是没有进行交叉验证，也没有发现有多少电子邮件是垃圾邮件。import numpy as np

import pandas as pd

import sklearn

from sklearn.naive_bayes import BernoulliNB

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

from sklearn.model_selection import train_test_split

from sklearn import metrics

from sklearn.metrics import accuracy_score

# Read data

dataset = pd.read_csv('dataset.csv').values

# What shuffle does? How it helps?

np.random.shuffle(dataset)

X = dataset[ : , :48 ]

Y = dataset[ : , -1 ]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = .33, random_state = 17)

# Bernoulli Naive Bayes

BernNB = BernoulliNB(binarize = True)

BernNB.fit(X_train, Y_train)

y_expect = Y_test

y_pred = BernNB.predict(X_test)

print ("Bernoulli Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

# Multinomial Naive Bayes

MultiNB = MultinomialNB()

MultiNB.fit(X_train, Y_train)

y_pred = MultiNB.predict(X_test)

print ("Multinomial Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

# Gaussian Naive Bayes

GausNB = GaussianNB()

GausNB.fit(X_train, Y_train)

y_pred = GausNB.predict(X_test)

print ("Gaussian Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

# Bernoulli ALTERED Naive Bayes

BernNB = BernoulliNB(binarize = 0.1)

BernNB.fit(X_train, Y_train)

y_expect = Y_test

y_pred = BernNB.predict(X_test)

print ("Bernoulli 'Altered' Accuracy Score: ")

print (accuracy_score(y_expect, y_pred))

我已经研究了交叉验证，认为我现在可以应用这个，但它发现有多少电子邮件是垃圾邮件，我不明白？？？我有不同的navie bayes版本的准确性，但我如何才能真正找到垃圾邮件的数量？最后一列是1或0，它定义了它是否是垃圾邮件？所以我不知道该怎么做

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。