机器学习实验四：贝叶斯分类器

原创

已于 2023-12-06 14:08:43 修改 · 2.5k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2023-12-05 12:21:09 首次发布

本文介绍了机器学习实验系列中的第四篇，详细讲解了朴素贝叶斯和半朴素贝叶斯算法，包括高斯分布的使用，以及如何在Python中使用sklearn库实现贝叶斯分类器，涉及数据集划分、训练、性能评估等步骤。

系列文章目录

文章目录

系列文章目录
一、实验目的
二、实验原理
三、实验内容
四、实验步骤
总结

一、实验目的

（1）了解朴素贝叶斯与半朴素贝叶斯的区别与联系，掌握高斯分布的朴素贝叶
斯计算方法；
（2）编程实现朴素贝叶斯分类器；
（3）使用朴素贝叶斯分类器实现多分类预测，度量模型性能。

二、实验原理

使用 Python 读取数据集信息并生成对应的朴素贝叶斯分类器，随后使用生
成的分类器实现多分类预测，并根据精确率、召回率和 F1值度量模型性能。

三、实验内容

1. 朴素贝叶斯

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理与特征独立假设的分类方法。
使用朴素贝叶斯方法时，首先基于训练数据，基于特征条件独立假设学习输入与
输出的联合概率分布；随后对于给定的 X，利用贝叶斯定理求解后验概率最大的
输出标签。

2. 半朴素贝叶斯

半朴素贝叶斯是适当考虑一部分属性之间的相互依赖信息，其中“独依赖估
计”（One-Dependent Estimator，简称 ODE）是半朴素分类中最常用的一种策略。
所谓“独依赖估计”，也就是假设每个属性在分类类别之外最多仅依赖于一个其
他属性。
与基于特征的条件独立性假设开展的朴素贝叶斯方法相比，其最大的区别就
是半朴素贝叶斯算法放宽了条件独立假设的限制，考虑部分属性之间的相互依赖
信息。但两者有共同特点：假设训练样本所有属性变量的值都已被观测到，即训
练样本是完整的。

3. 高斯分布的朴素贝叶斯计算方法

使用条件：所有特征向量都是连续型特征变量且符合高斯分布。
概率分布密度：在这里插入图片描述

4. 实验数据介绍

实验数据为来自 UCI 的鸢尾花三分类数据集 Iris Plants Database。
数据集共包含 150 组数据，分为 3 类，每类 50 组数据。每组数据包括 4 个
参数和 1 个分类标签，4 个参数分别为：萼片长度 sepal length、萼片宽度 sepal
width、花瓣长度 petal length、花瓣宽度 petal width，单位均为厘米。分类
标签共有三种，分别为 Iris Setosa、Iris Versicolour 和 Iris Virginica。
数据集格式如下图所示：在这里插入图片描述
为方便后续使用，该数据集需要进行特征向量与标签分割以及标签编号。