机器学习(一):k-近邻算法(kNN)

本文介绍了k-近邻(kNN)算法的基本思想和实现过程,通过实例展示了如何利用该算法进行约会网站的配对。算法通过计算欧式距离衡量样本相似度,并对特征进行归一化处理。实验结果显示,k值为5、6、7时,错误率最低,达到5.333%。kNN虽然简单,但因需要保存所有数据,导致时间和空间复杂度较高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文中的代码和数据集下载地址:
https://github.com/TimePickerWang/MachineLearningInAction

k-近邻算法是一个比较简单的算法,它的基本思路是这样的:存在一个样本数据集(即训练集),样本集中的每个样本都存在标签(目标变量),即我们知道样本集中每一数据与所属分类的对应关系。在输入没有标签的新数据后,将新数据和样本集中的每个样本进行比较,然后用算法提取样本集中和待分类样本最相似的前k个样本,然后选择k个最相似样本中出现次数最多的类别,作为待分类样本的类别。

那么,怎么判断两个样本的相似程度呢?这里使用欧式距离来进行判断,判断方式如下:
设有两个n维向量:
a=[a1,a2,......,an] a = [ a 1 , a 2 , . . . . . . , a n ]
b=[b1,b2,......,bn] b = [ b 1 , b 2 , . . . . . . , b n ]
那么,它们的欧式距离如下:
da,b=(a1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值