K近邻(K Nearest Neighbor,KNN),可以做分类,也可以做回归。
一、基本思想
给定一组训练集,有一个需要判断类别的输入实例,离输入实例最近的K个训练数据属于哪个类别,就判断输入实例属于哪个类别。
二、分类算法描述:
1、计算输入实例和所有训练集数据的距离;
2、按距离升序排序;
3、选择排序后的前K个训练子集数据;
4、根据选择出来的K个训练子集数据的类别,使用判别规则(一般是多数投票),预测输入实例的类别。
这样实现也叫蛮力算法,适合样本量少的时候使用。
三、影响因素:
根据以上描述,我们可以归纳影响KNN的主要因素:1、距离的度量 2、K值 3、判别规则。下面具体说下这3个因素是怎么影响KNN的。