介绍
K 最邻近算法是分类算法,也可用于回归问题。它根据距离最近的 K 个点的类别,判断未分类点的类别。也就是说,一个点的类别由距离其最近的 K 个点中占比最大的类别决定。其中,K 是超参数。KNN是一种非线性分类器。
距离
用欧式距离定义。
超参数
与参数相区别。参数是通过学习得到的变量,超参数是预设的变量。
分析过程
K 值的选择
KNN 的决策边界一般不是线性的,所以说 KNN 是一种非线性分类器。
K 越小,决策边界越不平滑,模型复杂度越高;K 越大,决策边界越平滑,模型复杂度越低,易欠拟合。
K 值的选择过程就是调参的过程,常用 N 折交叉验证。K 最好选奇数。
标准化
使各特征有同等的地位。常用的方法有极差法消除量级和标准差标准化。
参考链接:
https://zhuanlan.zhihu.com/p/79531731