KNN及影响其算法性能的优化(交叉验证、是否过拟合等)——自学第二篇

  • 介绍实现KNN的两种基础算法
  • 通过使用交叉验证、防止过拟合、超参数调整等方法对KNN的计算精度进行调整。
  • 总结KNN算法和机器学习流程

1、KNN(K近邻)

这里写图片描述

如图所示为每一个病人的肿瘤大小与其发现肿瘤的时间的关系,以此来判断肿瘤是否为恶性,其中恶性为蓝色,良性为红色,如果新来的病人为绿色的,需要用knn判断是否为恶性。
若k值取3,则找出之前数据中的点离新的数据点的距离最近的三个点,再分别将这三个点进行投票,若三个点中蓝色的居多,则新的点也为蓝色(恶性),反之则为红色(良性)。
这里写图片描述
上图所示离绿色点最近的三个点中,有两个为红色一个为蓝色,所以最终绿色的点属于红色(良性)。

新的数据属于离它最近的k个数据中数量最多的类别

距离通过计算两个点(a和b)的欧拉距离得到:

ni=1(x(a)ix(b)i)2
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值