在此对k近邻算法做一个简单的总结:
原理
K-近邻方法通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的k个训练样例,k个样品中哪个类别的训练样例占多数,则待分类原组就属于哪个类别。
在实践中往往通过若干次实验来确定K值,取分类误差率最小的K值。
特点
KNN方法主要依靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或者重叠较多的待分类样本集来说,KNN方法更为合适。
不足之处是计算量较大,因为对每一个待分类的样本都要计算它到全体已知样本的距离,才能求得它的K个最邻近点。
改进:
对于计算量大的问题目前常用的解决办法是事先对已知样本点进行剪辑,实现去除对分类作用不大的样本。
对样本进行组织与整理,分群分层,尽可能地将计算压缩在接近测试样本领域的小范围内。
总的来说,算法的适应性较强,尤其适用于样本容量较大的自动分类问题,而那些样本容量较小的分类问题采用这种算法比较容易产生误分。