💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在优快云上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
Sklearn 机器学习 IRIS 数据集:理解混淆矩阵的实战指南
机器学习模型做完分类后,我们经常会看到“准确率”、“召回率”或“F1 值”等指标,而这些指标的计算都基于一个关键的工具 —— 混淆矩阵(Confusion Matrix)。
本文以经典的 IRIS 鸢尾花数据集为例,结合 sklearn
框架,通过完整代码演示如何训练模型并输出混淆矩阵,深入理解其中每个数值的含义及其背后对模型表现的揭示力。
📘 一、IRIS 数据集简介
IRIS 数据集是机器学习中最常用的多分类示例,包含三类鸢尾花(Setosa、Versicolor、Virginica),每类 50 条样本,共 150 条数据。
每条数据包含以下特征(单位为 cm):
- 萼片长度(sepal length)
- 萼片宽度(sepal width)
- 花瓣长度(petal length)
- 花瓣宽度(petal width)
目标是根据这 4 个特征预测花的类别。
🛠️ 二、训练模型并生成预测结果
我们使用 sklearn
提供的逻辑回归模型来分类 IRIS 数据,并输出预测结果。
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import