机器学习项目1:鸢尾花分类

本文介绍了如何使用Python库进行库版本检测,导入鸢尾花数据集并进行数据预处理,包括数据查看、维度分析、统计描述和类别分布。接着,通过数据可视化展示特征关系,并通过10折交叉验证评估多种机器学习算法。最后,重点展示了KNN、LR和SVM在鸢尾花分类任务中的应用和效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


0、库版本检测

输入如下命令:

import sys
import scipy
import numpy
import matplotlib
import pandas
import sklearn
import IPython
print('python version:{}'.format(sys.version))
print('scipy version:{}'.format(scipy.__version__))
print('numpy version:{}'.format(numpy.__version__))
print('matplotlib version:{}'.format(matplotlib.__version__))
print('pandas version:{}'.format(pandas.__version__))
print('sklearn version:{}'.format(sklearn.__version__))
print('IPython version:{}'.format(IPython.__version__))

 测试后输出为:

只要不报错,正常输出,就代表安装成功。

1、导入数据

     鸢尾花数据集属于有监督数据集,数据包括:花瓣的长度、宽度、花萼的长度、宽度。所有花隶属于setosa、versicolor和virginica三个品种之一。这是一个典型的三分类问题。

鸢尾花(iris)数据集是机器学习和统计学中一个经典的数据集。它包含在scikit-learn的datasets模块中。

导入数据的命令:

# 导入iris数据集
from sklearn.datasets import load_iris
iris_dataset=load_iris()

也可以下载数据集然后导入。

可以在UCI机器学习仓库下载鸢尾花数据集:

UCI Machine Learning Repository

我们通过第二种办法导入数据。下载的数据为iris.data,为文本文件.直接将数据集解压缩在当前目录下iris文件夹下。

机器学习数据处理的步骤:

1、导入数据

2、探索数据

3、数据可视化

4、评估算法

5、实施预测

1.1 导入需要的库:

#导入需要的类库
#用pandas读取外部文件
from pandas import read_csv
#绘制散点图
from pandas.plotting import scatter_matrix
#绘图
from matplotlib import pyplot
#sklearn分类需要的类
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
#交叉验证
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
#打分
from sklearn.metrics import accuracy_score
#逻辑回顾算法
from sklearn.linear_model import LogisticRegression
#决策树
from sklearn.tree import DecisionTreeClassifier
#
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
#K近邻算法
from sklearn.neighbors import KNeighborsClassifier
#贝叶斯
from sklearn.naive_bayes import GaussianNB
#支持向量机SVM
from sklearn.svm import SVC

1.2 导入数据集

代码如下:

#导入数据,括号内为数据位置
filename='./iris/iris.data'
#names是给数据命名
names=['separ-length','separ-width','petal-length','petal-width','class']
#读入csv文件,使用pandas读入数据
dataset=read_csv(filename,names=names)

2、探索数据

数据导入后,我们急需要知道数据的信息。

可以从以下几个角度审查数据:

(1)查看数据;

(2)数据的维度;

(3)统计描述所有的数据特征;

(4)数据分类的分布情况。

2.1 查看数据

代码如下:

#查看数据前五行
dataset.head()

输出为:

2.2 查看数据的维度

代码:

#查看数据维度
print('数据维度:行 %s,列 %s' % dataset.shape)

执行结果:

数据维度:行 150,列 5

鸢尾花数据集为一个小数据集。只有150条数据,其中4个特征,1个标签。

2.3 统计描述数据

数据特征的统计描述信息包括数据的行数、中位数、最大值、最小值、均值、四分位值等统计数据信息。

代码

#统计描述数据信息
print(dataset.describe())

执行结果:

2.4 数据分类分布

查看class数据的分布情况,得到的是数据的绝对数值,从数据可以看出数据分布是否均衡。

代码:

#分类分布情况
print(dataset.groupby('class').size())

执行结果:

鸢尾花数据集分布是很平衡的,不需要特殊处理。如果数据分布不平衡时,需要进行处理,常用的调整数据平衡的方法:

  • 扩大数据样本;
  • 数据的重新抽样;当数据超过一万条时,可以考虑测试欠抽样(删除多数类样本),当数据量比较少时可以考虑过抽样(复制少数类样本);
  • 尝试生成人工样本;
  • 异常检测和变化检测。

3 数据可视化

经过第2步数据审查后,对数据有了一个基本的了解,接下来用更直观的图标来进一步查看数据特征的分布情况。

  • 使用单变量图表可以更好地理解每一个特征属性;
  • 多变量图表用于理解不同特征属性之间的关系。

3.1 单变量图表

单变量图表可以显示每一个单独的特征属性,由于特征值都是数字,可以使用箱线图来表示属性与中位值的离散速度。

代码:

#箱线图
dataset.plot(kind='box',subplots=True,layout=(2,2),sharex=False,sharey=False)
pyplot.show()

执行结果:

也可以绘制直方图。

代码:

#直方图
dataset.hist()
pyplot.show()

执行结果:

从直方图可以看出,separ-length和separ-width基本符合高斯分布。

3.2 多变量图表

可以通过散点矩阵图来查看每个属性之间的关系。

代码:

#散点矩阵图
scatter_matrix(dataset)
pyplot.show()

执行结果:

从多变量图大概能看出特征量之间的关系。

4 评估算法

将数据集代入各种算法训练,找出最合适的算法。

步骤如下:

(1)分离训练集;

(2)采用10折交叉验证来评估算法模型;

(3)生成6个不同的模型来预测新数据;

(4)选择最优模型。

4.1 分离训练集

一般分出数据集的80%作为训练集,剩下的20%用来作为测试集。

代码如下:

#分出训练集
array=dataset.values
X=array[:,0:4]
Y=array[:,4]
validation_size=0.2
seed=7
X_train,X_validation,Y_train,Y_validation=train_test_split(X,Y,test_size=validation_size,random_state=seed)
X_train.shape

执行结果:

鸢尾花总数150个,训练集120个,测试集30个。分离成功。

4.2 评估模型

用10折交叉验证来分离训练数据集,评估算法的准确度。10折交叉验证是随机地将数据分成10份:9份用来训练模型,1份用来评估算法。

4.3 创建模型

根据散点图可以看出,有些数据符合线性分许,所以可以用线性模型来评估。

用六种算法来评估:

  • 线性回归(LR);
  • 线性判别分析(LDA);
  • K近邻(KNN);
  • 分类与回归树(CART);
  • 贝叶斯分类器(NB);
  • 支持向量机(SVM)。

其中,LR和LDA为线性算法,剩下的都为非线性算法。

#算法审查
models={}
models['LR']=LogisticRegression()
models['LDA']=LinearDiscriminantAnalysis()
models['KNN']=KNeighborsClassifier()
models['CART']=DecisionTreeClassifier()
models['NB']=GaussianNB()
models['SVM']=SVC()
#评估算法
results=[]
for key in models:
    kfold=KFold(n_splits=10,random_state=seed,shuffle=True)
    cv_results=cross_val_score(models[key],X_train,Y_train,cv=kfold,scoring='accuracy')
    results.append(cv_results)

执行结果:

#箱线图比较算法
fig=pyplot.figure()
fig.suptitle('Algorithm Comparison')
ax=fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(models.keys())
pyplot.show()

执行结果为:

5实施预测

LR、KNN、SVM得分比较高,用这三个分别进行测试。

#使用评估数据集评估算法
svm=SVC()
svm.fit(X=X_train,y=Y_train)
predictions=svm.predict(X_validation)
print(accuracy_score(Y_validation,predictions))
print(confusion_matrix(Y_validation,predictions))
print(classification_report(Y_validation,predictions))

SVM的执行结果:

LR的执行结果:

KNN的执行结果:

从结果可以看出,KNN在测试集中的得分更好一些。

### 鸢尾花分类项目教程 鸢尾花分类机器学习领域中的经典入门项目之一,通常用于演示监督学习的原理和应用。以下是对鸢尾花分类项目的详细介绍,涵盖数据准备、预处理、模型选择与训练、评估以及扩展方法等内容。 #### 数据准备 鸢尾花数据集包含150个样本,每个样本有4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度,单位为厘米。目标类别包括3种鸢尾花:Setosa(标签为0)、Versicolour(标签为1)和Virginica(标签为2)。这些数据可以通过Scikit-learn库直接加载[^2]。 #### 数据预处理 在进行模型训练之前,需要对数据进行预处理以提高模型性能。具体步骤包括: 1. **标准化**:将特征数据缩放到均值为0、方差为1的分布,消除不同量纲的影响。 2. **数据集划分**:通常将数据划分为70%训练集和30%测试集,以便验证模型的泛化能力[^2]。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 加载数据 data = load_iris() X, y = data.data, data.target # 数据集划分 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 标准化 scaler = StandardScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) ``` #### 模型选择与训练 支持向量机(SVM)是一种常用的分类算法,特别适合处理线性可分的数据。在线性核函数下,正则化参数C=1.0可以平衡间隔大小和分类正确率[^2]。 ```python from sklearn.svm import SVC # 构建SVM模型 model = SVC(kernel='linear', C=1.0) model.fit(X_train, y_train) ``` #### 模型评估 模型的性能可以通过准确率(Accuracy)来评估,即正确预测样本数占总样本数的比例。典型的鸢尾花分类模型应达到95%以上的准确率[^2]。 ```python from sklearn.metrics import accuracy_score # 测试集预测 y_pred = model.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print(f"模型准确率: {accuracy:.2f}") ``` #### 扩展方法 除了单一模型外,还可以使用集成学习方法如Stacking来提升分类性能。Stacking通过组合多个基础模型的预测结果,生成最终的分类决策。尽管鸢尾花数据集较小,但这种方法仍能体现其优势[^3]。 ```python from sklearn.ensemble import StackingClassifier from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier # 定义基础模型 base_models = [ ('svm', SVC(kernel='linear', C=1.0, probability=True)), ('tree', DecisionTreeClassifier()) ] # 定义元模型 meta_model = LogisticRegression() # 构建Stacking模型 stacking_model = StackingClassifier(estimators=base_models, final_estimator=meta_model) stacking_model.fit(X_train, y_train) # 评估Stacking模型 y_pred_stacking = stacking_model.predict(X_test) accuracy_stacking = accuracy_score(y_test, y_pred_stacking) print(f"Stacking模型准确率: {accuracy_stacking:.2f}") ``` #### 模型部署 为了方便后续使用,可以使用`joblib`保存训练好的模型和标准化器。这样,用户可以在新数据上快速加载并进行预测[^2]。 ```python import joblib # 保存模型和标准化器 joblib.dump(model, 'svm_model.pkl') joblib.dump(scaler, 'scaler.pkl') # 加载模型和标准化器 loaded_model = joblib.load('svm_model.pkl') loaded_scaler = joblib.load('scaler.pkl') ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值