K近邻算法的Python实现

最新推荐文章于 2025-06-09 00:57:43 发布

宽客在线

最新推荐文章于 2025-06-09 00:57:43 发布

阅读量3.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签： python k近邻算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42633269/article/details/86014015

本文介绍了K-近邻（KNN）算法的基本原理，包括算法步骤、K的选择、距离度量和分类决策规则。KNN算法依赖于样本的邻近度，通过多数表决确定分类。文章还探讨了KNN的优缺点，如高计算复杂度和对异常值的不敏感性，并提到了在K值选择和处理类别投票相同情况的策略。此外，文章还涉及KNN的Python实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为『十大机器学习算法』之一的K-近邻（K-Nearest Neighbors）算法是思想简单、易于理解的一种分类和回归算法。今天，我们来一起学习KNN算法的基本原理，并用Python实现该算法，最后，通过一个案例阐述其应用价值。

KNN算法的直观理解

它基于这样的简单假设：彼此靠近的点更有可能属于同一个类别。用大俗话来说就是『臭味相投』,或者说『近朱者赤，近墨者黑』。

它并未试图建立一个显示的预测模型，而是直接通过预测点的临近训练集点来确定其所属类别。

K近邻算法的实现主要基于三大基本要素：

K的选择；
距离度量方法的确定；
分类决策规则。

下面，即围绕这三大基本要素,探究它的分类实现原理。

KNN算法的原理

算法步骤

K近邻算法的实施步骤如下：

根据给定的距离度量，在训练集TT中寻找出与xx最近邻的kk个点，涵盖这kk个点的xx的邻域记作Nk(x)Nk(x);
在Nk(x)Nk(x)中根据分类决策规则决定样本的所属类别yy:

y=arg maxcj∑xi∈Nk(x)I(yi=cj),i=1,2,⋯,N;j=1,2,⋯,K.y=arg maxcj∑xi∈Nk(x)I(yi=cj),i=1,2,⋯,N;j=1,2,⋯,K.

K的选择

K近邻算法对K的选择非常敏感。K值越小意味着模型复杂度越高，从而容易产生过拟合；K值越大则意味着整体的模型变得简单，学习的近似近似误差会增大。

在实际的应用中，一般采用一个比较小的K值。并采用交叉验证的方法，选取一个最优的K值。

距离度量

距离度量一般采用欧式距离。也可以根据需要采用LpLp距离或明氏距离。

分类决策规则

K近邻算法中的分类决策多采用多数表决的方法进行。它等价于寻求经验风险最小化。

但这个规则存在一个潜在的问题：有可能多个类别的投票数同为最高。这个时候，究竟应该判为哪一个类别？

可以通过以下几个途径解决该问题：

从投票数相同的最高类别中随机地选择一个；
通过距离来进一步给票数加权；
减少K的个数，直到找到一个唯一的最高票数标签。

KNN算法的优缺点

优点

精度高
对异常值不敏感
没有对数据的分布假设

缺点

计算复杂度高
在高维情况下，会遇到『维数诅咒』的问题

KNN算法的算法实现

import os os.chdir('D:\\my_python_workfile\\Project\\Writting')os.getcwd()
'D:\\

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。