KNN算法：找啊找啊找朋友

最新推荐文章于 2024-04-26 17:18:23 发布

原创

最新推荐文章于 2024-04-26 17:18:23 发布 · 593 阅读

1 ·

CC 4.0 BY-SA版权

KNN算法是一种基础的非监督分类方法，通过找到最近的K个邻居进行分类决策。选择合适的K值至关重要，小K值可能导致过拟合，大K值则可能引起欠拟合。K-D树能有效提升搜索效率。KNN中的关键还包括距离度量和多数表决规则。文章提到了数据预处理、K值选择和实际应用案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何找朋友

KNN是昨天才刚刚接触到的算法，是一种十分基础的非监督分类算法。
个人认为它的概念最为生动的阐述就是：寻找邻居、投票计数：

想像训练集中的数据构成了一个超大的社会，其中又包含很多很多“人以类聚”的社区（人的本性之复读机）。突然有一天，一个新人（测试数据）打算移民到这个社会中，为了最快地适应到这个社会中，他要做的第一件事就是选择最适合自己社区去定居。最简单的办法就是：首先，他与社会中的每一个人都接触、交谈一遍（计算欧氏距离或其他距离），找到和自己兴趣最为贴合的K个好朋友。其次，分析这K个好朋友都是来自哪个社区，然后选择朋友最多的社区（多数表决）去定居。当然，如果这个新人并非是一个少数服从多数的支持者，又或者他自己有另外更好的决策规则，也可以用。他可以与社会上每一个人挨个交谈，找自己的好朋友，但这么做的效率实在太低，一个聪明人不应该这么做。更为简单的方法是对整个社会进行一个结构化的划分，根据不同的特征建立一个KD树。比如，已知这个人最喜欢去海边居住，那么他就没有必要再去和一个蒙古人交谈（计算欧氏距离），这么做的时间复杂度是log(N)。

K值如何选择

根据《统计学习方法》：

1）如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
2）如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单，类别之间的界限将变得模糊。K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。
3）在实际应用中，K 值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就