k近邻法算法对鸢尾花数据集进行分析

本文介绍了k近邻(k-NN)算法的基本原理和步骤,包括计算距离、排序、选择最近邻及确定分类。在实际应用中,作者在实现k-NN算法时遇到TypeError问题,主要是由于使用了不可哈希的numpy.ndarray。通过尝试修改变量名和转换为numpy数组来解决问题,但仍然面临挑战,文章提供了部分源代码供读者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.算法设计
k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
k-近邻算法步骤如下:
获取数据集,分析数据;
数据集划分;
使用KNN算法处理数据:
1.计算已知类别数据集中的点与当前点之间的距离;根据欧式距离公式
在这里插入图片描述
2.按照距离递增次序排序;
3.选取与当前点距离最小的k个点;
4.确定前k个点所在类别的出现次数;
5.返回前k个点所出现次数最高的类别作为当前点的预测分类。
二.有注释的源代码

def knn(x_test,x_data,y_data,k):
    # 计算样本数量
    x_data_size=x_data.shape[0]
    # 复制x_test
    np.tile(x_test,(x_data_size,1))
    # 计算x_test与每一个样本的差值
    
鸢尾花数据集是一个经典的用于机器学习分类问题的数据集,共有150个样本,每个样本包含4个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,以及它们所属的3个分类:山鸢尾、变色鸢尾和维吉尼亚鸢尾。 k近邻算法是一种基于实例的学习方法,它的基本思想是通过将新数据与已知数据集中最近的k个数据进行比较,来预测新数据的分类。 在使用k近邻算法鸢尾花数据集进行分类时,我们先将数据集分为训练集和测试集。然后,对于测试集中的每个样本,我们计算它与训练集中所有样本的距离,并选出距离最近的k个样本。最后,根据这k个样本的分类来预测测试集中样本的分类,并计算预测准确率。 下面是使用Python的scikit-learn库实现k近邻算法鸢尾花数据集分类的代码示例: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier # 加载数据集 iris = load_iris() # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42) # 创建k近邻分类器 knn = KNeighborsClassifier(n_neighbors=3) # 训练模型 knn.fit(X_train, y_train) # 预测测试集分类 y_pred = knn.predict(X_test) # 计算准确率 accuracy = knn.score(X_test, y_test) print("Accuracy:", accuracy) ``` 运行结果: ``` Accuracy: 0.9777777777777777 ``` 从结果可以看出,使用k近邻算法鸢尾花数据集分类的准确率达到了97.78%。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值