1.使用朴素贝叶斯模型对iris数据集进行花分类
尝试使用3种不同类型的朴素贝叶斯:
高斯分布型
from sklearn import datasets
iris = datasets.load_iris()
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()#构造
pred = gnb.fit(iris.data,iris.target)#拟合
y_pred = pred.predict(iris.data)#预测
print(iris.data.shape[0],(iris.target !=y_pred).sum())
结果: 150 6
多项式型
from sklearn import datasets
iris = datasets.load_iris()
from sklearn.naive_bayes import MultinomialNB
gnb = MultinomialNB()
pred = gnb.fit(iris.data, iris.target)
y_pred = pred.predict(iris.data)
print(iris.data.shape[0],(iris.target !=y_pred).sum())
结果:150 7
伯努利型
from sklearn import datasets
iris = datasets.load_iris()
from sklearn.naive_bayes import BernoulliNB
gnb = BernoulliNB()
pred = gnb.fit(iris.data, iris.target)
y_pred = pred.predict(iris.data)
print(iris.data.shape[0],(iris.target !=y_pred).sum())
结果:150 100
2.使用sklearn.model_selection.cross_val_score(),对模型进行验证。
from sklearn import datasets
iris = datasets.load_iris()
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score
gnb=GaussianNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())
from sklearn.naive_bayes import BernoulliNB
from sklearn.model_selection import cross_val_score
gnb=BernoulliNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_score
gnb=MultinomialNB()
scores=cross_val_score(gnb,iris.data,iris.target,cv=10)
print("Accuracy:%.3f"%scores.mean())
结果:
Accuracy:0.953
Accuracy:0.333
Accuracy:0.953
3. 垃圾邮件分类
数据准备:
- 用csv读取邮件数据,分解出邮件类别及邮件内容。
- 对邮件内容进行预处理:去掉长度小于3的词,去掉没有语义的词等
尝试使用nltk库:
pip install nltk
import nltk
nltk.download
不成功:就使用词频统计的处理方法
训练集和测试集数据划分
- from sklearn.model_selection import train_test_split
-
import csv #用csv读取邮件数据,分解出邮件类别及邮件内容 file_path = r'C:\Users\Administrator\Desktop\SMSSpamCollectionjsn.txt' sms = open(file_path,'r',encoding = 'utf-8') sms_data = [] sms_label = [] csv_reader = csv.reader(sms,delimiter='\t') for line in csv_reader: sms_label.append(line[0]) sms_data.append(line[1]) sms.close() sms_label sms_data from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(sms_data,sms_label,test_size=0.3,random_state=0,stratify=sms_label) #训练集,测试集
11.22
分类与监督学习,朴素贝叶斯分类算法
1.理解分类与监督学习、聚类与无监督学习。
简述分类与聚类的联系与区别。
简述什么是监督学习与无监督学习。
1)简述分类与聚类的联系与区别。
联系:按照某种标准给对象贴标签,再根据标签来区分归类。
分类:相当于给数据贴标签,根据标签可以提高对数据认知的效率,降低认知成本。
聚类:是指事先没有“标签”而通过某种成因分析找出事物之间存在聚集性原因的过程。
区别:类别成因不同。
聚类:没有事先预定的类别,类别数不确定,类别在聚类过程中自动生成。
2)简述什么是监督学习与无监督学习。
监督学习:每个实列都是由一组特征和一个类别结果,组成;用有标注的数据训练模型,并产生一个推断的功能;对于新的实例,可以用于映射该实例的类别。
无监督学习:我们只知道一些特征,并不知道答案,但不同的实例具有一定的相似性,把那些相似的聚集在一起为无监督学习。
2.朴素贝叶斯分类算法 实例
利用关于心脏情患者的临床数据集,建立朴素贝叶斯分类模型。
有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数
目标分类变量疾病:–心梗–不稳定性心绞痛
新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7)
最可能是哪个疾病?
上传演算过程。
3.编程实现朴素贝叶斯分类算法
利用训练数据集,建立分类模型。
输入待分类项,输出分类结果。
可以心脏情患者的临床数据为例,但要对数据预处理。
from sklearn.datasets import load_iris # 预处理
iris = load_iris
iris.keys()
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB() # 建模
gnb.fit(iris.data,iris.target) # 训练
gnb.predict([4.8,3.5,4.2,1.2)] # 预测
# gnb.predict([iris.data[95]])
from sklearn.cluster import KMeans
est = KMeans(n_clusters=4)#所有的花分为四类
est.fit(iris.data)
est.labels_