使用 Python 和 scikit-learn 实现 KNN 分类：以鸢尾花数据集为例

最新推荐文章于 2025-05-08 15:47:07 发布

弥树子

最新推荐文章于 2025-05-08 15:47:07 发布

阅读量1.3k

点赞数 21

文章标签： python scikit-learn 分类

本文链接：https://blog.youkuaiyun.com/mi_shu_zi/article/details/145323514

版权

在机器学习的世界里，K-Nearest Neighbors（KNN）算法是一种简单而强大的分类方法。它基于一个直观的想法：相似的数据点往往属于同一类别。本文将通过 Python 的 scikit-learn 库实现 KNN 分类，以经典的鸢尾花数据集为例，展示从数据加载到模型评估的完整流程。

1. KNN 算法简介

KNN 是一种监督学习算法，主要用于分类和回归任务。它的工作原理非常简单：对于一个新的数据点，算法会查找训练数据中与其最近的 K 个点（即“邻居”），然后根据这些邻居的类别进行投票，最终决定新数据点的类别。KNN 的关键在于选择合适的 K 值以及定义“最近”的距离度量方式。

2. 鸢尾花数据集

鸢尾花数据集是机器学习领域中最经典的数据集之一，由英国统计学家和生物学家 Ronald Fisher 在 1936 年首次发表。该数据集包含 150 个样本，每个样本有 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），分别对应鸢尾花的三种类别：Setosa、Versicolor 和 Virginica。

3. 实现 KNN 分类

接下来，我们将通过 Python 的 scikit-learn 库实现 KNN 分类。以下是完整的代码实现：

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifie