【机器学习】-K近邻算法(KNN)

knoci

已于 2024-09-09 21:56:32 修改

阅读量2.7k

点赞数 38

文章标签：机器学习近邻算法人工智能

于 2024-05-05 22:32:10 首次发布

本文链接：https://blog.youkuaiyun.com/knoci/article/details/138475094

版权

KNN算法是一种非参数的监督学习方法，用于分类和回归。文章详细介绍了算法原理，包括k的选择、距离度量（如欧几里得、曼哈顿等）、归一化处理以及概率kNN的应用。同时讨论了算法的优点（如易实现、适应性强）和缺点（如扩展性差、过拟合风险）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是KNN算法

k近邻算法，也称为 KNN 或 k-NN，是一种非参数、有监督的学习分类器，KNN 使用邻近度对单个数据点的分组进行分类或预测。虽然 k近邻算法 (KNN) 可以用于回归或分类问题，但它通常用作分类算法，假设可以在彼此附近找到相似点。

表示 K 最近邻算法图的插图

        回归问题使用与分类问题类似的概念，但在这种情况下，取 k 个最近邻的平均值来对分类进行预测。这里的主要区别是分类用于离散值，而回归用于连续值。但是，在进行分类之前，必须定义距离。最常用的是欧几里得距离，我们将在下面深入研究。
        还值得注意的是，k近邻算法 (KNN) 也是"惰性学习"模型家族的一部分，这意味着它只是存储训练数据集，而不是经历训练阶段。这也意味着所有计算都发生在进行分类或预测时。由于 k近邻算法 (KNN) 严重依赖内存来存储其所有训练数据，因此也称为基于实例或基于内存的学习方法。
        Evelyn Fix 和 Joseph Hodges 在 1951 年的这篇论文中提出了围绕 k近邻算法 (KNN) 模型的最初想法，而 Thomas Cover 在他的研究中扩展了他们的概念：“最近邻模式分类”。虽然这种算法不再像以前那样受欢迎，但由于其简单性和准确性，仍然是人们在数据科学中学习的首选算法之一。然而，随着数据集的增长，k近邻算法 (KNN) 变得越来越低效，影响了整体模型的性能。 k近邻算法 (KNN) 通常用于简单的推荐系统、模式识别、数据挖掘、金融市场预测、入侵检测等。