KNN(K近邻)——原理及算法实现

KNN算法是一种基于实例的学习,通过计算新输入实例与训练集中的实例距离来预测其类别。它具有易于实现、无需训练等优点,但也存在计算量大、速度慢的缺点。KNN的三个要素包括距离度量、K值选择和决策规则。为了优化计算量,可以利用二叉树结构。构建KNN分类器的基本步骤涉及计算距离、选取最近K个点、进行类别计数。此外,文章还提供了自定义KNN分类器的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

01 基本原理

给定一个数据集,对于新的输入实例,在训练集中找到与该实例最邻近的K个实例,这K个实例中的大多数属于某个类别,则认为该输入实例就属于某个类别。

02 优缺点

优点:易于实现,无需估计参数,无需训练,支持增量学习
缺点:计算量大,分析速度慢(需要扫描全部训练样本并计算距离)

03 KNN的三要素

1.距离度量:衡量特征空间中两个实例点的距离
2.K值得选择:K值过小,近似误差减小,估计误差变大,易于过拟合,噪声敏感。K值过大,近似误差变大,估计误差变小。
3.决策规则:多数表决法,也可以用加权表决法,权重为距离平方的倒数。

04 优化计算量

由于需要计算全部特征距离,计算量过大,可以采用二叉树的数据存储方式减少计算量。

05 构建KNN分类器基本步骤

1.计算输入X与训练数据集中的各点的距离。
2.按照距离,选取距离最近的K个点。
3.对K个点的类别归类计数,x归为计数最大的类(加权表决)
4.或者对K个点的类别按权值归类计数,x归为计数大的类。

06 自定义KNN分类器代码

# newInput: 新输入的待分类数据(x_test),本分类器一次只能对一个新输入分类
# dataset:输入
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值