KNN算法以及R语言的实现

KNN(K-Nearest-Neighbour) Classifiers, 即K-近邻算法,是一种懒惰机器学习算法(lazy learning)。简而言之,它在拿到训练集数据时并不急着去建模,而是在拿到测试集数据后,再到训练集数据中去寻找该测试样本最近的“邻居”,即距离最近的K个训练样本,依照训练样本数据的所属类别,加权或不加权地得出测试数据的类别。那么应该选择多少个邻居呢,即K取值是多还是少好呢?如果K选得小,得到的测试数据分类结果的偏差(bais)就小,同时方差(variance)增大;而如果K选得大,结果的偏差会增大,同时方差却会减小。

K近邻算法一般而言有4步:定下K值-->变量标准化-->计算测试样本到每个训练样本的距离-->加权或不加权地进行预测。下面用打高尔夫球的例子做具体计算。数据如下,共14条数据,以第一条数据作为测试样本。其中,temperature表示当天温度,humidity表表示当天湿度,play是要预测的变量,即是否打高尔夫。选择K=3,下面计算距离。


评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值