声明:本人学习的机器学习以machine learning in action 【美】peter Harrington著为主,练习上面代码并进行适当修改,不涉及任何版权不作任何商业用途,有问题可以联系本人,文中源码到一定时间将会在github上公开。
1、K-近邻算法(k-Nearest Neighbor,KNN)
该算法通过测量不同特征之间的距离来进行分类,说的是每个特征可以通过它的最邻近的K个邻居来表示。
下面是来自维基百科的一幅图:绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类,这就是KNN算法的基本思想。
2.KNN算法
优点:精度高,对异常值不敏感,无输入数据假定
缺点:计算较复杂
适用的数据范围包括:数值型和标称型
2.1KNN算法的流程
- 1.采集数据
- 2.分析数据
- 3.训练算法,计算距离