如何找朋友
KNN是昨天才刚刚接触到的算法,是一种十分基础的非监督分类算法。
个人认为它的概念最为生动的阐述就是:寻找邻居、投票计数:
想像训练集中的数据构成了一个超大的社会,其中又包含很多很多“人以类聚”的社区(人的本性之复读机)。突然有一天,一个新人(测试数据)打算移民到这个社会中,为了最快地适应到这个社会中,他要做的第一件事就是选择最适合自己社区去定居。最简单的办法就是: 首先,他与社会中的每一个人都接触、交谈一遍(计算欧氏距离或其他距离),找到和自己兴趣最为贴合的K个好朋友。 其次,分析这K个好朋友都是来自哪个社区,然后选择朋友最多的社区(多数表决)去定居。 当然,如果这个新人并非是一个少数服从多数的支持者,又或者他自己有另外更好的决策规则,也可以用。 他可以与社会上每一个人挨个交谈,找自己的好朋友,但这么做的效率实在太低,一个聪明人不应该这么做。更为简单的方法是对整个社会进行一个结构化的划分,根据不同的特征建立一个KD树。比如,已知这个人最喜欢去海边居住,那么他就没有必要再去和一个蒙古人交谈(计算欧氏距离),这么做的时间复杂度是log(N)。
K值如何选择
根据《统计学习方法》:
1)如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;
2) 如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单,类别之间的界限将变得模糊。K=N,则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的累,模型过于简单,忽略了训练实例中大量有用信息。
3)在实际应用中,K 值一般取一个比较小的数值,例如采用交叉验证法(简单来说,就