KNN算法对鸢尾花进行分类

最新推荐文章于 2025-10-29 15:19:19 发布

原创最新推荐文章于 2025-10-29 15:19:19 发布 · 465 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习

本文深入解析KNN算法的核心思想，探讨其简单实现与不足，通过实例演示了如何使用Scikit-learn进行Iris数据集的分类，并展示了模型评估的方法。重点讲解了数据获取、预处理和模型选择的过程。

KNN算法的核心思想：根据“邻居”的属性来推断所属类别

优点：

简单，易于理解，易于实现，无需训练

缺点：

必须指定k值，k值选择不当则分类器精度不能保证
懒惰算法，对测试样本分类时的计算量大，内存开销大

本次实验的思路如下：

获取数据
数据处理
特征工程
KNN算法预估流程
模型评估

代码如下：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

def knn_iris():
    #1.获取数据
    iris = load_iris()
    #2.划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data,iris.target,random_state=22)

    #3.特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    #这里需要注意测试集所用的均值和方差需和训练集的一样
    x_test = transfer.transform(x_test)

    #4.KNN算法预估器
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train,y_train)

    #5.模型评估
    #方法1 直接比对真实值和预测值
    y_predict = estimator.predict(x_test)
    print("y_predict:\n",y_predict)
    print("直接比对真实值和预测值：\n",y_test==y_predict)
    #方法2 计算准确率
    score = estimator.score(x_test,y_test)
    print("准确率为：\n",score)
    return None
if __name__ =="__main__":
    knn_iris()

结果如下：