KNN算法理解和应用

最新推荐文章于 2024-05-13 19:08:39 发布

原创

最新推荐文章于 2024-05-13 19:08:39 发布 · 5.4k 阅读

5 ·

CC 4.0 BY-SA版权

本文深入探讨了K近邻（KNN）算法的基本原理，包括其在分类和回归问题中的应用，以及如何选择合适的距离度量。同时，讨论了KNN算法的优缺点，并通过实例展示了KNN在实际问题中的实施过程。

一、算法概述

 
  1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。
 最简单平凡的分类器也许是那种死记硬背式的分类器，记住所有的训练数据，对于新的数据则直接和训练数据匹配，如果存在相同属性的训练数据，则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点，那就是很可能无法找到完全匹配的训练记录。
 
 kNN算法则是从训练集中找到和新数据最接近的k条记录，然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素：训练集、距离或相似的衡量、k的大小。
 
 二、算法要点
 
 1、指导思想
 kNN算法的指导思想是“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。
 
 计算步骤如下：
 计算已知类别数据集中的点与当前点之间的距离；
 按照距离递增次序排序；
 选取与当前点距离最小的k个点；