K近邻(kNN)

最新推荐文章于 2024-11-29 19:10:24 发布

原创

最新推荐文章于 2024-11-29 19:10:24 发布 · 821 阅读

6 ·

CC 4.0 BY-SA版权

k近邻(kNN)是一种基于实例的学习算法，利用投票机制进行分类或回归。本文介绍了kNN的基本思想、伪代码、核心公式、k值选择、距离度量方法以及k值对学习误差的影响。还探讨了kd树作为加速查找的数据结构，以及kNN算法的优缺点和在高维数据中面临的挑战。此外，提供了面试中可能遇到的问题和K-Means聚类算法的区别。

K近邻(kNN)简介

k近邻方法是一种惰性学习算法，可以用于回归和分类，它的主要思想是投票机制，对于一个测试实例 $x_j$ , 我们在有标签的训练数据集上找到和最相近的k个数据，用他们的label进行投票，分类问题则进行表决投票，回归问题使用加权平均或者直接平均的方法。

整体介绍

正所谓物以类聚,人以群分,kNN就是利用这个思想的一种学习算法, 对于每一个预测的实例,找打和它相近的k个实例,用这k个实例的平均水平表示这个待预测的实例. 如果是一个预测一个人平均收入的问题,我们都知道只要知道他的k个朋友的相关收入求平均值即可. KNN就是这么做的,只是需要指定K,并且怎么判断"朋友".