1 k-近邻算法概述
- 工作原理:给出一个样本数据集,其中每个样本数据都存在标签,即每个样本与所属分类的对应关系。首先,输入没有标签的新数据后,将新数据的每个特征值与样本数据集中对应的特征值进行比较,然后提取样本数据集中特征最相似的数据(最近邻)的分类标签。一般选择样本数据集中前k个最相似的数据,通常k是不大于20的整数。最后,在k个最相似数据中选择出现次数最多的分类,作为新数据的分类。
- k-近邻算法的伪代码
- 对未知类别属性的数据集中的每个点依次执行以下操作:
- (1)计算已知类别数据集中的点与当前点之间的距离,这里使用欧式距离;
- (2)按照距离递增次序排序;
- (3)选取与当前点距离最小的k个点;
- (4)确定前k个点所在类别的出现频率;
- (5)返回前k个点出现频率最高的类别作为当前点的预测分类。
- 欧式距离公式
- 二维向量点
和
之间的欧式距离&
- 二维向量点