python：鸢尾花_本关任务:使用python语言编程,按要求完成任务。相关知识 iris 鸢尾花数据集是一-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_73388849/article/details/143118781

python：鸢尾花

前言
一、任务背景
二、机器学习建模流程

前言

在这个数据驱动的时代，机器学习已经成为了一个炙手可热的话题。无论是在学术界还是工业界，机器学习技术都在不断地推动着创新和变革。对于初学者来说，理解机器学习的基本概念和流程是至关重要的。而在众多的机器学习任务中，分类问题无疑是最基础也是最核心的任务之一。

在这篇文章中，我们将通过一个经典的机器学习案例——鸢尾花数据集分类，来探索机器学习的世界。鸢尾花数据集不仅是机器学习入门的必经之路，也是理解分类问题的一个绝佳起点。通过这个案例，我们将逐步揭开机器学习的神秘面纱，从数据的探索性分析到模型的构建和评估，我们将一一走过。

我们的目标不仅仅是教会你如何使用Python和一些流行的机器学习库来处理数据和构建模型，更重要的是，我们希望通过这个案例，让你对机器学习的过程有一个直观和深入的理解。我们将讨论数据预处理的重要性，探索特征工程的技巧，以及评估模型性能的方法。

在这篇文章中，你将学到：

如何进行探索性数据分析（EDA）来了解数据集的基本特征。
如何使用数据可视化技术来洞察数据的内在结构。
如何划分数据集为训练集和测试集，并理解其重要性。
如何使用决策树算法来构建一个分类模型。
如何评估模型的性能，并理解不同的评估指标。
无论你是机器学习的新手，还是希望巩固基础知识的经验丰富的实践者，这篇文章都将为你提供一个全面的学习体验。现在，让我们开始这段旅程，一起探索机器学习的奥秘吧！

一、任务背景

在机器学习和深度学习的领域中，鸢尾花（Iris）数据集是一个经典的入门数据集。它简单、清晰，非常适合初学者用来理解和学习分类任务。本篇文章将带你从数据的探索性分析开始，逐步深入到模型的构建和评估。我们将使用Python这门强大的编程语言，来完成整个流程。

二、机器学习建模流程

1. 探索性数据分析

在开始建模之前，我们首先需要对数据进行探索性分析，以了解数据的基本特征和分布情况。

（1）数据集读取

我们可以直接从scikit-learn库中加载鸢尾花数据集，也可以从本地文件读取。这里我们演示如何从本地CSV文件读取数据：

import pandas as pd

# 读取本地CSV文件
path = './data/iris.csv'
df = pd.read_csv(path)

# 显示数据的前几行
print(df.head())

（2）检查空值

在进行数据分析之前，检查数据中的空值是非常重要的一步：

# 检查数据中的空值
print(df.isnull().sum())

（3）数据分布统计

我们可以通过统计数据的描述性信息来了解数据的分布情况：

# 显示数据的描述性统计信息
print(df.describe())

（4）标签列处理

由于模型无法直接处理文本类型的标签，我们需要将文本标签转换为数值标签：

# 将文本标签转换为数值标签
label_index = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}
df['Species'] = df['Species'].apply(lambda x: label_index[x])

2. 数据可视化

在数据探索阶段，可视化是一个强有力的工具，可以帮助我们直观地理解数据。

（1）数据降维

我们可以使用主成分分析（PCA）来降低数据的维度，使其更易于可视化：

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 提取特征和标签
X = df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']].values
y = df['Species'].values

# 使用PCA降维到2维
pca = PCA(n_components=2)
pca_result = pca.fit_transform(X)

# 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(pca_result[:, 0], pca_result[:, 1], c=y, cmap='viridis')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA of Iris Dataset')
plt.show()

3. 数据划分

在模型训练之前，我们需要将数据划分为训练集和测试集：

from sklearn.model_selection import train_test_split

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=2024)

4. 模型训练

我们将使用决策树作为我们的分类模型，并在训练集上训练它：

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import precision_score, recall_score, f1_score

# 创建决策树模型
dt = DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=5, class_weight='balanced', random_state=2024)

# 训练模型
dt.fit(X_train, y_train)

# 预测测试集
y_pred = dt.predict(X_test)

# 评估模型
print('Precision:', precision_score(y_test, y_pred, average='macro'))
print('Recall:', recall_score(y_test, y_pred, average='macro'))
print('F1 Score:', f1_score(y_test, y_pred, average='macro'))