Machine Learning学习笔记（六）朴素贝叶斯法（Naive Bayes)

最新推荐文章于 2021-03-26 22:34:53 发布

吃机智豆长大的少女乙

最新推荐文章于 2021-03-26 22:34:53 发布

阅读量229

点赞数 2

本文介绍如何使用朴素贝叶斯算法进行电影评论的情感分析，通过TF-IDF向量化和MultinomialNB分类器，实现了对电影评论的正面与负面情感分类，准确率达到80%以上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

朴素贝叶斯法(Naive Bayes)

Naive Bayes的算法原理简单，不多加赘述。

参考博文：https://blog.youkuaiyun.com/AMDS123/article/details/70173402

关键：假设特征独立。

朴素贝叶斯代码实现

见博文：https://blog.youkuaiyun.com/lsldd/article/details/41542107

from matplotlib import pyplot
import scipy as sp
import numpy as np
from sklearn.datasets import load_files
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import  CountVectorizer
from sklearn.feature_extraction.text import  TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import classification_report
 
'''
movie_reviews = load_files('data')
#保存
sp.save('movie_data.npy', movie_reviews.data)
sp.save('movie_target.npy', movie_reviews.target)
'''
 
#读取
movie_data   = sp.load('movie_data.npy')
movie_target = sp.load('movie_target.npy')
x = movie_data
y = movie_target
 
#BOOL型特征下的向量空间模型，注意，测试样本调用的是transform接口
count_vec = TfidfVectorizer(binary = False, decode_error = 'ignore',\
                            stop_words = 'english')
 
 
#加载数据集，切分数据集80%训练，20%测试
x_train, x_test, y_train, y_test\
    = train_test_split(movie_data, movie_target, test_size = 0.2)
x_train = count_vec.fit_transform(x_train)
x_test  = count_vec.transform(x_test)
 
 
#调用MultinomialNB分类器
clf = MultinomialNB().fit(x_train, y_train)
doc_class_predicted = clf.predict(x_test)
    
#print(doc_class_predicted)
#print(y)
print(np.mean(doc_class_predicted == y_test))
 
#准确率与召回率
precision, recall, thresholds = precision_recall_curve(y_test, clf.predict(x_test))
answer = clf.predict_proba(x_test)[:,1]
report = answer > 0.5
print(classification_report(y_test, report, target_names = ['neg', 'pos']))

输出结果如下所示：
precision recall f1-score support
neg 0.78 0.87 0.83 135
pos 0.87 0.77 0.82 145
avg / total 0.83 0.82 0.82 280
如果进行多次交叉检验，可以发现朴素贝叶斯分类器在这个数据集上能够达到80%以上的准确率。如果你亲自测试一下，会发现KNN分类器在该数据集上只能达到60%的准确率，相信你对朴素贝叶斯分类器应该能够刮目相看了。而且要知道，情感分类这种带有主观色彩的分类准则，连人类都无法达到100%准确。

要注意的是，我们选用的朴素贝叶斯分类器类别：MultinomialNB，这个分类器以出现次数作为特征值，我们使用的TF-IDF也能符合这类分布。

其他的朴素贝叶斯分类器如GaussianNB适用于高斯分布（正态分布）的特征，而BernoulliNB适用于伯努利分布（二值分布）的特征。