本文主要介绍KNN的基本思想,实行步骤和针对鸢尾花数据集的API。
目录
基本思想
选择未知样本范围内确定个数的K个样本,该K个样本大多数属于某一类型,则位置样本判定为该类型。
为了判断未知样本的类别,以全部训练样本
作为代表点,计算
未知样本与所有训练样本的距离,并
以最近邻者的类别作为决策未知样本类别的依据。
KNN算法的基本步骤:
确定邻居的数量K: KNN算法中的K表示要考虑的最近邻居的数量。这是一个超参数,需要在训练模型之前指定。(ps:这里涉及到利用交叉验证和网格搜索来寻最优模型和最优超参数)
计算距离: 对于给定的数据点,计算它与训练集中所有数据点的距离。常用的距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。一般距离的计算均为欧式距离。
找到K个最近邻: 根据计算的距离找到与给定数据点最接近的K个训练集数据点。
投票或平均: 对于分类问题,采用多数投票的方式,即将K个最近邻中出现次数最多的类别作为未知数据的预测类别。对于回归问题,采用平均值的方式,即将K个最