K近邻法(k-nearest neighbor)是机器学习当中较为简单理解的一种基本分类与回归方法,KNN输入的是实例的特征向量,也就是特征空间上的点;输出的是其对应的类别标签,KNN的训练数据集的类别标签都是已知的,分类时对输入的新的实例点计算k个最近邻训练实例,通过多数表决也就是看这k个点多数属于的类别,将其作为新实例点的最后分类归属;因此KNN不具有显式的学习过程,kNN包括三个基本要素:k值的选择,距离度量和分类决策规则;本篇博文主要介绍k近邻的基本理论概念,算法原理思想以及例题,还有k近邻的实现方法——kd树;
表示输入的数据集,Xi表示输入的特征向量,y表示类别标签;根据给定的距离度量,找出在训练集中与x最近邻的K个点,记为Nk(x); 然后根据决策规则决定x的类别y;