朴素贝叶斯分类(鸢尾花数据集)

本次主要用朴素贝叶斯分类器实现鸢尾花数据集的分类:
在这里插入图片描述


1、导入必要的库:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
import numpy as np

导入sklearn的相关库,数据的处理与分析库pandas,数值计算库numpy等等。


2、定义朴素贝叶斯分类器:

fit 函数

  • np.unique(y) 获取 y 中所有不同的类别,并将这些类别存储在 self.classes 中,这里的classes就是['Iris-setosa' 'Iris-versicolor' 'Iris-virginica']
  • 通过 X[y == c] 选择属于类别 c 的所有样本,存储在 X_c 中
  • 均值和方差是按特征计算的,即每个特征有一个均值和一个方差,但是prior只有一个。
  • axis=0 也表示沿着行的方向,即对每一列进行操作

predict函数

  • iterrows() 是 pandas DataFrame 的一个方法,它按行迭代 DataFrame,返回每行的索引和行数据。

_predict函数

  • 用np.log(self.parameters[c][“prior”]) 得到先验概率的对数
  • self.parameters[c][“mean”].values可以得到c类的4个特征的均值,如Iris-setosa的均值是[-1.03396583 0.89321545 -1.31141791 -1.25710072],方差类似。
  • 调用_calculate_likelihood函数求似然,4个特征的似然都求出,然后相乘(因为这里满足独立同分布的假设,所以 P ( x 1 x 2 x 3 x 4 ∣ D ) = P ( x 1 ∣ D ) P ( x 2 ∣ D ) P ( x 3 ∣ D ) P ( x 4 ∣ D ) P(x_1x_2x_3x_4|D)=P(x_1|D)P(x_2|D)P(x_3|D)P(x_4|D) P(x1x2x
### 使用朴素贝叶斯算法实现鸢尾花数据集分类 为了使用朴素贝叶斯算法对鸢尾花数据集进行分类,需先加载必要的Python库并准备数据。具体操作如下: #### 导入所需库 ```python import numpy as np import pandas as pd from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.naive_bayes import BernoulliNB, MultinomialNB, GaussianNB from sklearn.metrics import accuracy_score, classification_report ``` #### 加载与预处理数据 ```python # 加载鸢尾花数据集 iris = datasets.load_iris() X = iris.data y = iris.target # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 数据标准化 scaler = StandardScaler().fit(X_train) X_train_scaled = scaler.transform(X_train) X_test_scaled = scaler.transform(X_test) ``` #### 定义不同类型的朴素贝叶斯分类器 对于不同的特征分布情况可以选择适合的朴素贝叶斯变体来构建模型。 - **伯努利朴素贝叶斯 (Bernoulli Naive Bayes)**适用于二元离散型变量的数据。 - **多项式朴素贝叶斯 (Multinomial Naive Bayes)**通常用于计数类别的场景下,比如词频统计。 - **高斯朴素贝叶斯 (Gaussian Naive Bayes)**假设连续属性服从正态分布,在本案例中最为适用因为鸢尾花数据集中包含了测量长度宽度这样的连续值[^1]。 这里选择`GaussianNB()`作为示例: ```python gnb = GaussianNB() # 训练模型 gnb.fit(X_train_scaled, y_train) # 预测新样本类别标签 predictions = gnb.predict(X_test_scaled) ``` #### 结果评估 最后一步是对模型性能做出评价,这可以通过比较真实标签(`y_test`)同预测得到的结果(`predictions`)来进行准确性度量以及其他指标分析。 ```python print(f'Accuracy Score: {accuracy_score(y_test, predictions):.4f}') print("\nClassification Report:") print(classification_report(y_test, predictions)) ``` 上述过程展示了如何利用sklearn中的朴素贝叶斯模块完成鸢尾花数据集的基本分类任务,并提供了简单的性能评测方法[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

追逐远方的梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值