【机器学习系列】之k近邻（kNN）

最新推荐文章于 2025-06-03 21:41:00 发布

張張張張

最新推荐文章于 2025-06-03 21:41:00 发布

阅读量817

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习 k近邻 KNN

本文链接：https://blog.youkuaiyun.com/qq_41995574/article/details/90050955

本文详细介绍了k近邻(kNN)算法，包括其优缺点、工作原理、k值选择、距离度量方式和分类决策。讲解了两种常用的kNN算法实现：KD树和球树，探讨了它们的建树和搜索最近邻的流程。此外，还讨论了kNN算法在面对样本不平衡和限定半径等问题时的策略，以及最近质心算法的简单应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：張張張張
github地址：https://github.com/zhanghekai
【转载请注明出处，谢谢！】

【机器学习系列】之k近邻（kNN）
【机器学习系列之】纯python及sklearn实现kNN

一、 $k N N$ 优缺点

2.1 $k N N$ 的主要优点：

理论成熟，思想简单，既可以用来做分类也可以用来做回归
可用于非线性分类
训练时间复杂度比支持向量机之类的算法低，仅为 $O (n)$
和朴素贝叶斯之类的算法比，对数据没有假设，准确率更高，对异常点不敏感
由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别，因此对于类域的交叉或重叠较多的待分类样本集来说，KNN方法比其他方法更合适。
该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域才用这种算法容易产生误分

2.2 $k N N$ 的主要缺点：

计算量大，尤其是特征数非常多的时候
样本不平衡的时候，对西游类别的预测准确率低
KD树、球树之类的墨西哥建立需要大量的内存
使用懒散学习方法，基本上不学习，导致预测时速度比逻辑回归之类的算法慢
相比决策树模型，KNN模型可解释性不强

二、 $k N N$ 概述

$k$ 近邻（简称 $k N N$ ）学习是一种常用的监督学习方法！其工作机制非常简单： 给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这 $k$ 个“邻居”的信息来进行预测。

$k N N$ 既可以做分类，也可以做回归：

在分类任务中可使用“投票法”，即选择这 $k$ 个样本中出现最多的类别标记作为预测结果。
在回归任务中可使用“平均法”，即将这 $k$ 个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行甲醛平均或加权投票，距离越近的样本权重越大。

$k N N$ 特点： $k$ 近邻学习有一个明显的不同之处：它似乎没有显式的训练过程！它是 “懒惰学习（lazy learing）” 的著名代表，此类学习技术在训练结点仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理。相应的，那些在训练阶段就对样本进行学习处理的方法，称为 “急切学习（eager learning）”。

三、 $k N N$ 三要素

3.1 $k$ 值的选择

对于 $k$ 值的选择，没有一个固定的经验，一般根据样本分布，选择一个较小的值，可以通过交叉验证选择一个合适的 $k$ 值。

选择较小的 $k$ 值： 相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大，即： $k$ 值的减小就意味着整体模型变得复杂，容易发生过拟合。
选择较大的 $k$ 值： 相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。此时，与输入实例较远（不相似）的训练实例也会对预测起作用，使预测发生错误，且 $k$ 值的增大就意味着整体模型变得简单。