《Python机器学习基础教程》学习笔记(1) 鸢尾花分类

这篇博客是《Python机器学习基础教程》的学习笔记,主要介绍了使用scikit-learn进行鸢尾花分类的步骤,包括获取数据、数据集拆分、观察数据、构建k近邻模型、预测和评估模型。博主详细解释了如何使用train_test_split()拆分数据,并通过scatter_matrix()进行数据可视化。最后,使用KNeighboursClassifier构建模型并计算精度,模型在测试集上的准确率为97%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

鸢尾花分类是《Python机器学习基础教程》中的第一个应用,是一个监督学习问题,概述了使用scikit-learn库进行监督学习的基本流程:

获取数据→数据集拆分→观察数据→构建模型→评估模型→预测

博主使用的编程环境:

Sublime Text 3 + Jupyter Notebook + Anaconda 3

默认导入库:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn

#博主使用的Anaconda 3并未默认安装mglearn,需要打开anaconda prompt输入pip install mglearn进行安装

 

应用

一 获取数据

鸢尾花(Iris)数据集是机器学习和统计学中的一个经典数据集,包含于scikit-learn的datasets模块中,可调用load_iris()来导入:

from sklearn.datasets import load_iris
iris_dataset = load_iris()

load_iris()返回的是一个Bunch对象,有五个键:

①target_names: 鸢尾花的三个品种

②feature_names: 鸢尾花的四个特征

③DESCR: 对数据集的简要说明

④data: 鸢尾花四个特征的具体数据

⑤target: 鸢尾花的品种,由0,1,2来表示

 

二 数据集拆分

通常我们将数据用大写的X来表示(因为数据是个二维数组),而标签用小写的y来表示

然后利用scikit-learn的train_test_split()将导入的数据集分为训练集(用于构建机器学习模型)与测试集(用于评估模型性能),通常采用3:1的随机分配方法。train_test_split()的随机种子每次执行都会改变,为了使结果可以验证,我们可以通过random_state设置固定的随机种子。

from sklearn.model_selection
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值