K近邻算法

本文主要介绍KNN的基本思想,实行步骤和针对鸢尾花数据集的API。

目录

基本思想

KNN算法的基本步骤:

KNN算法的一些注意事项与缺点

K值的选取对于模型的影响

KNN的API与代码


基本思想

选择未知样本范围内确定个数的K个样本,该K个样本大多数属于某一类型,则位置样本判定为该类型。

为了判断未知样本的类别,以全部训练样本 作为代表点,计算 未知样本与所有训练样本的距离,并
以最近邻者的类别作为决策未知样本类别的依据。

KNN算法的基本步骤:

确定邻居的数量K: KNN算法中的K表示要考虑的最近邻居的数量。这是一个超参数,需要在训练模型之前指定。(ps:这里涉及到利用交叉验证和网格搜索来寻最优模型和最优超参数)

计算距离: 对于给定的数据点,计算它与训练集中所有数据点的距离。常用的距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。一般距离的计算均为欧式距离。

找到K个最近邻: 根据计算的距离找到与给定数据点最接近的K个训练集数据点。

投票或平均: 对于分类问题,采用多数投票的方式,即将K个最近邻中出现次数最多的类别作为未知数据的预测类别。对于回归问题,采用平均值的方式,即将K个最

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值