sklearn中的朴素贝叶斯模型及其应用(下附:补11.22号作业)

本文探讨了朴素贝叶斯分类算法在不同场景的应用,包括使用三种类型(高斯、多项式、伯努利)对鸢尾花数据集进行分类,验证模型准确性,并通过交叉验证提升模型性能。同时,介绍了如何利用邮件数据进行垃圾邮件分类,以及基于临床数据的心脏病患者疾病分类。

1.使用朴素贝叶斯模型对iris数据集进行花分类

尝试使用3种不同类型的朴素贝叶斯:

高斯分布型

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()#构造
pred = gnb.fit(iris.data,iris.target)#拟合
y_pred = pred.predict(iris.data)#预测

print(iris.data.shape[0],(iris.target !=y_pred).sum())

结果:     150 6

多项式型

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import MultinomialNB
gnb =  MultinomialNB()
pred = gnb.fit(iris.data, iris.target)
y_pred = pred.predict(iris.data)

print(iris.data.shape[0],(iris.target !=y_pred).sum())

  结果:150 7

伯努利型

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import BernoulliNB
gnb =  BernoulliNB()
pred = gnb.fit(iris.data, iris.target)
y_pred = pred.predict(iris.data)

print(iris.data.shape[0],(iris.target !=y_pred).sum())

  结果:150 100

2.使用sklearn.model_selection.cross_val_score(),对模型进行验证。

 

from sklearn import datasets
iris = datasets.load_iris()

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
gnb=GaussianNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())

from sklearn.naive_bayes import BernoulliNB
from sklearn.model_selection import cross_val_score
gnb=BernoulliNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())
from sklearn.naive_bayes import MultinomialNB

from sklearn.model_selection import cross_val_score

gnb=MultinomialNB()

scores=cross_val_score(gnb,iris.data,iris.target,cv=10)

print("Accuracy:%.3f"%scores.mean())

  结果:

Accuracy:0.953
Accuracy:0.333
Accuracy:0.953

 

3. 垃圾邮件分类

数据准备:

  • 用csv读取邮件数据,分解出邮件类别及邮件内容。
  • 对邮件内容进行预处理:去掉长度小于3的词,去掉没有语义的词等

尝试使用nltk库:

pip install nltk

import nltk

nltk.download

不成功:就使用词频统计的处理方法

 

训练集和测试集数据划分

  • from sklearn.model_selection import train_test_split
  • import csv    #用csv读取邮件数据,分解出邮件类别及邮件内容
    file_path = r'C:\Users\Administrator\Desktop\SMSSpamCollectionjsn.txt'
    sms = open(file_path,'r',encoding = 'utf-8')
    sms_data = []
    sms_label = []
    csv_reader = csv.reader(sms,delimiter='\t')
    for line in csv_reader:
        sms_label.append(line[0]) 
        sms_data.append(line[1])
    sms.close()
    sms_label
    sms_data    
    
    
    from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test = train_test_split(sms_data,sms_label,test_size=0.3,random_state=0,stratify=sms_label) #训练集,测试集
    

      

11.22

分类与监督学习,朴素贝叶斯分类算法

1.理解分类与监督学习、聚类与无监督学习。

简述分类与聚类的联系与区别。

简述什么是监督学习与无监督学习。

 

1)简述分类与聚类的联系与区别。

联系:按照某种标准给对象贴标签,再根据标签来区分归类。

分类:相当于给数据贴标签,根据标签可以提高对数据认知的效率,降低认知成本。

聚类:是指事先没有“标签”而通过某种成因分析找出事物之间存在聚集性原因的过程。

区别:类别成因不同。

分类:是事先定义好类别 ,类别数不变,属于有指导学习范畴。

聚类:没有事先预定的类别,类别数不确定,类别在聚类过程中自动生成。

 

 

2)简述什么是监督学习与无监督学习。

监督学习:每个实列都是由一组特征和一个类别结果,组成;用有标注的数据训练模型,并产生一个推断的功能;对于新的实例,可以用于映射该实例的类别。

无监督学习:我们只知道一些特征,并不知道答案,但不同的实例具有一定的相似性,把那些相似的聚集在一起为无监督学习。

2.朴素贝叶斯分类算法 实例

利用关于心脏情患者的临床数据集,建立朴素贝叶斯分类模型。

有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数

目标分类变量疾病:–心梗–不稳定性心绞痛

新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7)

最可能是哪个疾病?

上传演算过程。

 

3.编程实现朴素贝叶斯分类算法

利用训练数据集,建立分类模型。

输入待分类项,输出分类结果。

可以心脏情患者的临床数据为例,但要对数据预处理。

from sklearn.datasets import load_iris                    # 预处理
iris = load_iris
iris.keys()
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()                                                    # 建模
gnb.fit(iris.data,iris.target)                                         # 训练
gnb.predict([4.8,3.5,4.2,1.2)]                                     # 预测
# gnb.predict([iris.data[95]])
from sklearn.cluster import KMeans
est = KMeans(n_clusters=4)#所有的花分为四类
est.fit(iris.data)
est.labels_

  

 

转载于:https://www.cnblogs.com/LLABC/p/10018409.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值