机器学习之KNN

失败才是人生常态

已于 2023-05-22 14:02:39 修改

阅读量1.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：本科机器学习文章标签：机器学习 KNN

于 2019-08-01 10:11:29 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43751506/article/details/98031387

本科机器学习专栏收录该内容

9 篇文章

订阅专栏

KNN算法概述

    k近邻（简称KNN）算法是一种简单的分类与回归方法。它不需要数学基础，也没有很难公式推导，但是往往它的预测效果却很不错。工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后基于这K个”邻居“的信息来预测。
    在分类任务中可使用“投票法”，即选择这K个样本中出现最多的类别标记。
    在回归任务中可使用“平均法”，即将这K个样本的实值输出标记的平均值作为预测结果。
    还可基于距离的远近进行加权平均或加权投票，距离越近的样本权重越大。
    K近邻是一种‘懒惰学习’的代表，因为它训练阶段仅仅只是把样本保存起来，训练的开销为零，待收到测试样本后再进行处理。
    特殊的，当K等于1时的分类器叫做“最近邻分类器”

KNN参数

    KNN有两个重要的参数会影响预测结果。
    第一个参数是K值的选择。如果选择较小的K值，这时，预测结果会对邻近的实例点非常敏感。如果邻近的实例点恰巧是噪声，预测就会出错。也就是容易发生过拟合。当选择较大的K值时，一些距离远的，不相似的训练实例也会起到预测作用，使预测发生错误。举个极端的例子，当K值等于训练样本数时，这时，无论测试集的输入是什么，它都将预测训练集中类别最多的点，这显然是不可取的。所以K值需要不断验证来选择。
    第二个参数是距离计算方法的选择。常见的距离度量方式是欧式距离和曼哈顿距离，也可以根据实际情况来选择合适的距离度量方法。