利用sklearn 朴素贝叶斯进行评论短语的分类

最新推荐文章于 2024-07-31 23:38:12 发布

吴楠京

最新推荐文章于 2024-07-31 23:38:12 发布

阅读量833

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： python 垃圾分类朴素贝叶斯 sklearn 机器学习

本文链接：https://blog.youkuaiyun.com/lunseqing5357/article/details/80312879

该博客介绍了如何利用Python的sklearn库和朴素贝叶斯算法对评论短语进行垃圾信息分类。通过Spyder、jieba分词和其他工具处理文本数据，训练数据包含4万条记录，测试数据2万条，最终模型在调整alpha参数为0.001时达到最优准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

功能：

对评论短语，比如一个文章下的评论短语进行分类通过或者删除，也就是是垃圾、不是垃圾。

工具：

Spyder，jieba分词，numpy，joblib，sklearn

程序：

# -*- coding: utf-8 -*-
"""
Created on Mon May 14 10:12:38 2018
@author: Administrator
"""
import codecs
import jieba
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import numpy as np
from sklearn.externals import joblib
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc

"""
CountVectorizer：
只考虑词汇在文本中出现的频率
验证文件并计算令牌的出现次数并将其作为稀疏矩阵返回
TfidfVectorizer：
除了考量某词汇在文本出现的频率，还关注包含这个词汇的所有文本的数量
能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征
相比之下，文本条目越多，Tfid的效果会越显著
将术语频率逆序文档频率归一化为发生次数的稀疏矩阵。
"""

#获取停用词表
stop_words = "E:/Python/data/totalstop.txt"
stopwords = codecs.open(stop_words,'rb',encoding='utf-8').readlines()
stopwords = [ w.strip() for w in stopwords ]

train_data_path="E:/Python/data/四万.txt"
test_data_path="E:/Python/data/两万.txt"
model_save