sklearn中的朴素贝叶斯模型及其应用(下附：补11.22号作业)

最新推荐文章于 2023-08-28 13:59:50 发布

转载最新推荐文章于 2023-08-28 13:59:50 发布 · 282 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/LLABC/p/10018409.html

文章标签：

#人工智能 #数据结构与算法 #python

本文探讨了朴素贝叶斯分类算法在不同场景的应用，包括使用三种类型（高斯、多项式、伯努利）对鸢尾花数据集进行分类，验证模型准确性，并通过交叉验证提升模型性能。同时，介绍了如何利用邮件数据进行垃圾邮件分类，以及基于临床数据的心脏病患者疾病分类。

1.使用朴素贝叶斯模型对iris数据集进行花分类

尝试使用3种不同类型的朴素贝叶斯：

高斯分布型

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()#构造
pred = gnb.fit(iris.data,iris.target)#拟合
y_pred = pred.predict(iris.data)#预测

print(iris.data.shape[0],(iris.target !=y_pred).sum())

结果：　　 150 6

多项式型

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import MultinomialNB
gnb =  MultinomialNB()
pred = gnb.fit(iris.data, iris.target)
y_pred = pred.predict(iris.data)

print(iris.data.shape[0],(iris.target !=y_pred).sum())

　　结果：150 7

伯努利型

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import BernoulliNB
gnb =  BernoulliNB()
pred = gnb.fit(iris.data, iris.target)
y_pred = pred.predict(iris.data)

print(iris.data.shape[0],(iris.target !=y_pred).sum())

　　结果：150 100

2.使用sklearn.model_selection.cross_val_score()，对模型进行验证。

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
gnb=GaussianNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())

from sklearn.naive_bayes import BernoulliNB
from sklearn.model_selection import cross_val_score
gnb=BernoulliNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())
from sklearn.naive_bayes import MultinomialNB

from sklearn.model_selection import cross_val_score

gnb=MultinomialNB()

scores=cross_val_score(gnb,iris.data,iris.target,cv=10)

print("Accuracy:%.3f"%scores.mean())

　　结果：

Accuracy:0.953
Accuracy:0.333
Accuracy:0.953

3. 垃圾邮件分类

数据准备：

用csv读取邮件数据，分解出邮件类别及邮件内容。
对邮件内容进行预处理：去掉长度小于3的词，去掉没有语义的词等

尝试使用nltk库：

pip install nltk

import nltk

nltk.download

不成功：就使用词频统计的处理方法

训练集和测试集数据划分

from sklearn.model_selection import train_test_split

import csv    #用csv读取邮件数据，分解出邮件类别及邮件内容
file_path = r'C:\Users\Administrator\Desktop\SMSSpamCollectionjsn.txt'
sms = open(file_path,'r',encoding = 'utf-8')
sms_data = []
sms_label = []
csv_reader = csv.reader(sms,delimiter='\t')
for line in csv_reader:
    sms_label.append(line[0]) 
    sms_data.append(line[1])
sms.close()
sms_label
sms_data    


from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(sms_data,sms_label,test_size=0.3,random_state=0,stratify=sms_label) #训练集，测试集

11.22

分类与监督学习，朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。

简述分类与聚类的联系与区别。

简述什么是监督学习与无监督学习。

1）简述分类与聚类的联系与区别。

联系：按照某种标准给对象贴标签，再根据标签来区分归类。

分类：相当于给数据贴标签，根据标签可以提高对数据认知的效率，降低认知成本。

聚类：是指事先没有“标签”而通过某种成因分析找出事物之间存在聚集性原因的过程。

区别：类别成因不同。

分类：是事先定义好类别，类别数不变，属于有指导学习范畴。

聚类：没有事先预定的类别，类别数不确定，类别在聚类过程中自动生成。

2)简述什么是监督学习与无监督学习。

监督学习：每个实列都是由一组特征和一个类别结果，组成；用有标注的数据训练模型，并产生一个推断的功能；对于新的实例，可以用于映射该实例的类别。

无监督学习：我们只知道一些特征，并不知道答案，但不同的实例具有一定的相似性，把那些相似的聚集在一起为无监督学习。

2.朴素贝叶斯分类算法实例

利用关于心脏情患者的临床数据集，建立朴素贝叶斯分类模型。

有六个分类变量(分类因子)：性别，年龄、KILLP评分、饮酒、吸烟、住院天数

目标分类变量疾病：–心梗–不稳定性心绞痛

新的实例：–(性别=‘男’，年龄<70, KILLP=‘I'，饮酒=‘是’，吸烟≈‘是”，住院天数<7)

最可能是哪个疾病？

上传演算过程。

3.编程实现朴素贝叶斯分类算法

利用训练数据集，建立分类模型。

输入待分类项，输出分类结果。

可以心脏情患者的临床数据为例，但要对数据预处理。

from sklearn.datasets import load_iris                    # 预处理
iris = load_iris
iris.keys()
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()                                                    # 建模
gnb.fit(iris.data,iris.target)                                         # 训练
gnb.predict([4.8,3.5,4.2,1.2)]                                     # 预测
# gnb.predict([iris.data[95]])
from sklearn.cluster import KMeans
est = KMeans(n_clusters=4)#所有的花分为四类
est.fit(iris.data)
est.labels_

转载于:https://www.cnblogs.com/LLABC/p/10018409.html