机器学习————KNN算法

最新推荐文章于 2025-10-30 20:18:59 发布

原创

最新推荐文章于 2025-10-30 20:18:59 发布 · 3.4k 阅读

·

42

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #算法 #人工智能

本文详细介绍了KNN算法的基本概念、工作流程、距离计算方法，展示了如何用KNN实现鸢尾花分类，并探讨了其优点（如简单实现、多分类和对异常值不敏感）及缺点（如计算复杂度高、数据相关性问题）。

一、KNN算法介绍

1.1 KNN算法概述

KNN（K-Nearest Neighbor）算法是机器学习算法中最基础、最简单的算法之一，是一种分类和回归的统计方法，是监督学习。KNN通过测量不同特征值之间的距离来进行分类。所谓k近邻，就是k个最近的邻居的意思，说的是每个样本类别都可以用它最接近的k个邻居的类别来代表。就比如：判断一个人的人品好坏，只需要观察与他来往最密切的几个人的人品好坏就可以得出，即“近朱者赤，近墨者黑"。

举个例子：

图中绿色的点是我们要预测的那个点，假设K=3。那么KNN算法就会找到与它距离最近的三个点，看看哪种类别多一些，例子中蓝色三角形有两个，红色圆有一个，那么新来的绿色点就归类到蓝三角了。

1.2 KNN算法的一般流程

1、收集数据：可以使用任何方法。
2、准备数据：距离计算所需要的数值，最好是结构化的数据格式。
3、分析数据：可以使用任何方法。
4、测试算法：计算错误率。
5、使用算法：
   5.1. 计算预测数据与训练数据之间的距离
   5.2. 将距离进行递增排序
   5.3. 选择距离最小的前K个数据
   5.4. 确定前K个数据的类别，及其出现频率
   5.5. 返回前K个数据中频率最高的类别（预测结果）

1.3 KNN算法的距离计算

KNN算法中对于距离的计算有好几种度量方式，比如欧式距离、曼哈顿距离、切比雪夫距离等等，最常用的就是欧式距离。

欧式距离计算公式：

$\sqrt{\sum_{i=1}^{n}\left ( x_{i}-y_{i} \right )^{2}}$

1.4 KNN算法的K值选择

K值的大小对算法的影响：

K值太大，会导致预测标签比较稳定，可能过平滑，容易欠拟合。

K值太小，会导致预测的标签比较容易受到样本的影响，容易过拟合。

所以对于K值的选取，我们通常使用交叉验证来验证，交叉验证：将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据，从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。