Scikit-Learn中实践朴素贝叶斯_scikit-learn 朴素贝叶斯手写体识别-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45755670/article/details/103261726

本文通过使用sklearn库中的三种朴素贝叶斯模型（高斯、伯努利和多项式）对digits数据集进行分类预测，详细介绍了如何调整平滑参数以优化模型性能。通过绘制不同平滑参数下模型在训练集和测试集上的得分曲线，确定了最佳参数值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import  load_digits 
from sklearn.model_selection import train_test_split

载入数据集并观察数据

digits = load_digits()
digits.keys()
#打印数据描述信息
print(digits.DESCR)
#查看数据形状,每个数据有64个维度
digits.data.shape
#第一张图像的数据
digits.data[0]

建立朴素贝叶斯模型

# 导入三个贝叶斯模型
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import MultinomialNB

#实例化三个模型
bnb = BernoulliNB(alpha=1.0)
mnb = MultinomialNB(alpha=1.0)
gnb = GaussianNB()

#分别采用三个模型对数据进行学习
bnb.fit(X_train,y_train)
mnb.fit(X_train,y_train)
gnb.fit(X_train,y_train)

#查询结果
bnb.score(X_train,y_train)
bnb.score(X_test,y_test)
mnb.score(X_train,y_train)
mnb.score(X_test,y_test)
gnb.score(X_train,y_train)
gnb.score(X_test,y_test)

train_score = []
test_score = []
#参数变化从1.0每次减小0.01,减小到0.01
for i in np.arange(1,0,-0.01):
    #采用当前遍历的i值作为平滑系数
    bnb = BernoulliNB(alpha=i)
    #训练模型
    bnb.fit(X_train,y_train)
    #保存分数
    train_score.append(bnb.score(X_train,y_train))
	test_score.append(bnb.score(X_test,y_test))
# 训练集上的分数
plt.plot(range(len(train_score)) , train_score , color='green')
# 测试集上的分数
plt.plot(range(len(train_score)) , test_score , color='red');

在这里插入图片描述

# 建立一个列表保存结果
train_scores = []
test_scores = []

# 平滑系数的初始值为1
alpha = 1
for i in range(10):  
    print(alpha)
    # 采用当前遍历的i值作为平滑系数
    bnb = BernoulliNB(alpha=alpha)
    # 模型训练
    bnb.fit(X_train , y_train)
    # 保存分数
    train_scores.append( bnb.score(X_train , y_train)  )
    test_scores.append(bnb.score(X_test , y_test) )
    # 每次对上一次的平滑系数除以10
    alpha /= 10
# 训练集上的分数
plt.plot(range(len(train_scores)) , train_scores, color='green')
# 测试集上的分数
plt.plot(range(len(train_scores)) , test_scores , color='red');