系列文章目录
文章目录
一、实验目的
(1)了解朴素贝叶斯与半朴素贝叶斯的区别与联系,掌握高斯分布的朴素贝叶
斯计算方法;
(2)编程实现朴素贝叶斯分类器;
(3)使用朴素贝叶斯分类器实现多分类预测,度量模型性能。
二、实验原理
使用 Python 读取数据集信息并生成对应的朴素贝叶斯分类器,随后使用生
成的分类器实现多分类预测,并根据精确率、召回率和 F1值度量模型性能。
三、实验内容
1. 朴素贝叶斯
朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征独立假设的分类方法。
使用朴素贝叶斯方法时,首先基于训练数据,基于特征条件独立假设学习输入与
输出的联合概率分布;随后对于给定的 X,利用贝叶斯定理求解后验概率最大的
输出标签。
2. 半朴素贝叶斯
半朴素贝叶斯是适当考虑一部分属性之间的相互依赖信息,其中“独依赖估
计”(One-Dependent Estimator,简称 ODE)是半朴素分类中最常用的一种策略。
所谓“独依赖估计”,也就是假设每个属性在分类类别之外最多仅依赖于一个其
他属性。
与基于特征的条件独立性假设开展的朴素贝叶斯方法相比,其最大的区别就
是半朴素贝叶斯算法放宽了条件独立假设的限制,考虑部分属性之间的相互依赖
信息。但两者有共同特点:假设训练样本所有属性变量的值都已被观测到,即训
练样本是完整的。
3. 高斯分布的朴素贝叶斯计算方法
使用条件:所有特征向量都是连续型特征变量且符合高斯分布。
概率分布密度:
4. 实验数据介绍
实验数据为来自 UCI 的鸢尾花三分类数据集 Iris Plants Database。
数据集共包含 150 组数据,分为 3 类,每类 50 组数据。每组数据包括 4 个
参数和 1 个分类标签,4 个参数分别为:萼片长度 sepal length、萼片宽度 sepal
width、花瓣长度 petal length、花瓣宽度 petal width,单位均为厘米。分类
标签共有三种,分别为 Iris Setosa、Iris Versicolour 和 Iris Virginica。
数据集格式如下图所示:
为方便后续使用,该数据集需要进行特征向量与标签分割以及标签编号。
5. 评价指标介绍
评价指标选择精确率 P、召回率 R、F1度量值 F1,计算公式如下:
具体代码实现时,可以直接调用 sklearn 库中的相应方法进行计算。
四、实验步骤
1. 划分数据集
按照实验要求,本次数据集划分采用随机划分 80%数据用于训练,其余 20%
数据用于测试。使用 sklearn 库的 train_test_split()方法划分数据,代码如
下:

本文介绍了机器学习实验系列中的第四篇,详细讲解了朴素贝叶斯和半朴素贝叶斯算法,包括高斯分布的使用,以及如何在Python中使用sklearn库实现贝叶斯分类器,涉及数据集划分、训练、性能评估等步骤。
最低0.47元/天 解锁文章
2136

被折叠的 条评论
为什么被折叠?



