功能:
对评论短语,比如一个文章下的评论短语进行分类通过或者删除,也就是是垃圾 、不是垃圾。
工具:
Spyder,jieba分词,numpy,joblib,sklearn
程序:
# -*- coding: utf-8 -*-"""
Created on Mon May 14 10:12:38 2018
@author: Administrator
"""
import codecs
import jieba
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
import numpy as np
from sklearn.externals import joblib
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc
"""
CountVectorizer:
只考虑词汇在文本中出现的频率
验证文件并计算令牌的出现次数并将其作为稀疏矩阵返回
TfidfVectorizer:
除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量
能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征
相比之下,文本条目越多,Tfid的效果会越显著
将术语频率逆序文档频率归一化为发生次数的稀疏矩阵。
"""
#获取停用词表
stop_words = "E:/Python/data/totalstop.txt"
stopwords = codecs.open(stop_words,'rb',encoding='utf-8').readlines()
stopwords = [ w.strip() for w in stopwords ]
train_data_path="E:/Python/data/四万.txt"
test_data_path="E:/Python/data/两万.txt"
model_save