- 介绍实现KNN的两种基础算法
- 通过使用交叉验证、防止过拟合、超参数调整等方法对KNN的计算精度进行调整。
- 总结KNN算法和机器学习流程
1、KNN(K近邻)
如图所示为每一个病人的肿瘤大小与其发现肿瘤的时间的关系,以此来判断肿瘤是否为恶性,其中恶性为蓝色,良性为红色,如果新来的病人为绿色的,需要用knn判断是否为恶性。
若k值取3,则找出之前数据中的点离新的数据点的距离最近的三个点,再分别将这三个点进行投票,若三个点中蓝色的居多,则新的点也为蓝色(恶性),反之则为红色(良性)。
上图所示离绿色点最近的三个点中,有两个为红色一个为蓝色,所以最终绿色的点属于红色(良性)。
新的数据属于离它最近的k个数据中数量最多的类别
距离通过计算两个点(a和b)的欧拉距离得到: