学习笔记-Python最近邻算法（KNN）

原创

已于 2023-12-27 23:45:21 修改 · 2.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #python

于 2021-03-07 23:24:13 首次发布

KNN:
一个样本在特征空间中，总有k个与之最相似（即特征空间中最邻近）的样本。其中，大多数属于某一类别，则该样本也属于这个类别。

计算步骤:
1.算距离:算出测试样本到训练集中每个样本的距离。（例如:欧氏距离）
2.找邻居:找出距离最近的k个训练对象。（k值的选取:交叉验证）
3.做分类:将这k个对象的主要类别作为测试数类别。（少数服从多数/根据距离的远近，距离越近权重越大，权重为距离平方的倒数）

算法流程
1.计算已知类别数据集中的点与当前点之间的距离。
2.按照距离递增次序排序。
3.选取与当前点距离最小的k个点。
4.确定前k个点所在类别对应的出现频率。
5.返回前k个点出现频率最高的类别作为当前点的预测分类。

优点:
1.简单，易于理解，易于实现，无需估计参数，无需训练；
2.适合对稀有事件进行分类；
3.适合于多分类问题。
缺点:
1.计算量大，内存开销大，评分慢；
2.可解释性较差。

行业应用:

客户流失预测
欺诈侦测（更适合于稀有事件的分类问题）

knn算法解决鸢尾花分类问题

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

优异c

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

python实现K最近邻算法

09-20

主要为大家详细介绍了python实现K最近邻算法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

K最近邻算法-python

rip -- shun

06-23

562

K最近邻算法正如名字本身所说--近朱者赤近墨者黑 1.需要逐步掌握： K最邻近算法处理2元分类 K最邻近算法处理多元分类 K最邻近算法的回归分析 K最邻近算法的实例 2.所用模块： #导入数据集生成器 from sklearn.datasets import make_blobs #导入knn分类器 from sklearn.neighbors import KNeighborsC...

1 条评论您还未登录，请先登录后发表或查看评论

python实现KNN（最近邻）算法

欢迎来到李奇峰的数据世界

09-10

2629

KNN（近邻）算法 KNN算法可能是标准数据挖掘算法中最为直观的一种。为了对新个体进行分类，它查找训练集，找到与新个体最相似的那些个体，看看这些个体大多属于哪个类别，就把新个体分到哪个类别 KNN算法几乎可以对任何数据集进行分类，但是，要计算数据集中每两个个体之间的距离，计算量很大数据集选取本次数据集选用电离数据，该数据集每行有35个值，前34个为天线采集的数据，最后一个值不是“g...

python -- K最近邻算法

shentong1的专栏

12-08

1576

KNN核心算法函数#! /usr/bin/env python3 # -*- coding: utf-8 -*- # fileName ： KNNdistance.py # author : zoujiameng@aliyun.com.cnimport mathdef getMaxLocate(target): # 查找target中最大值的locate maxValue = float("

Python之K最近邻算法

夜空下的凝视

04-15

2064

K最近邻（k-nearest neighbours，KNN）算法：是指给定一个训练数据集，将新输入的实例，在训练数据集中找到与该实例最邻近的K个实例（K表示指定的最近邻的数量，K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。关于K的经验规则是：如果有N位用户，应考虑sqrt(N)个邻居。 KNN算法用于分类和回归，需要考虑最近的邻居： 1、分类就是编组； 2、回归就是预...

【学习笔记 及课后题练习】陈强-机器学习-Python-Ch10 KNN法

最新发布

2201_76026029的博客

08-19

1438

本学习笔记 仅为以防自己忘记了，顺便分享给一起学习的网友们参考。如有不同意见/建议，可以友好讨论。本学习笔记 所有的代码和数据都可以从陈强老师的个人主页上下载陈强.机器学习及Python应用. 北京：高等教育出版社, 2021.数学原理等详见陈强老师的PPT参考了：网友阡之尘埃的Python机器学习07——K近邻。

异常检测系列：K最近邻算法KNN

数智笔记

01-25

2989

上表显示了正常组和异常组的特征。它显示了正常组和异常组的计数和计数百分比。请记住，在有效的展示中，要用特征名称标记特征。一旦确定了阈值，大小就确定了。如果阈值是从图（D.2）中得出的，并且没有先验知识，那么大小统计数据成为一个很好的起点参考。所有均值必须与领域知识一致。在我们的案例中，异常组的均值小于正常组的均值。异常组的平均分数应该高于正常组的分数。您不需要过多解释分数。因为我们在数据生成中有真实值，所以我们可以生成一个混淆矩阵来了解模型的性能。该模型表现不错，并且识别出了所有的25个异常值。

k-NN最近邻算法(k-nearest neighbors algorithm)

wangprince2017

10-07

6234

本文是一篇k-NN学习笔记，内容如下：一. k-NN简介二. k-NN原理三. 关于 k-NN的进一步讨论 3.1 K的大小怎么选择? 3.2 怎么计算最近“邻居”? 3.3 既然是监督学习，怎么训练？ 3.4 k-NN怎么用于回归？ 3.5 最后，为什么选择k-NN? 四. k-NN应用-提高约会对象匹配(python) 4.1 读文件，解析特征向量和类别标签 4.2 特征标准化 4.3 画散点图，观察特征 4.4 利用k-NN算法进行分类 ...

机器学习笔记--3、分类学习KNN及python实现

高雅的博客

04-27

1258

KNN 文章目录KNN什么是KNN计算步骤1. 算距离2. 找邻居3. 做分类算法流程KNN的优点与缺点优点缺点python实现什么是KNN kNN（k-Nearest Neighbor Classification），即K-近邻分类算法近朱者赤，近墨者黑一个样本在特征空间中，总会有k个最相似（即特征空间中最邻近）的样本。其中，大多数样本属于某一个类别，则该样本也属于这个类别。是理...

Python机器学习——K最近邻算法（入门）

小波大叔

01-19

1068

最近报名参加了一个机器学习的训练营，是由大佬崔神和Kaggle大牛联合举办的，旨在于学习掌握机器学习的根本原理，编程语言只是一个工具，对于高数、线代要求较高，自己一方面跟着大佬学习，另一方面也看了看相关参考书，结合Python进行机器学习，作为新手，好多术语都不太了解，如题目所言，本文重在于讲述K最近邻算法在Python中的应用。　　何为K最近邻算法呢，通俗点将，近朱者赤近墨者黑，而K就是最近邻...

K近邻(K-Nearest Neighbors, KNN)回归算法(Python)

05-31

K近邻(K-Nearest Neighbors, KNN)算法既可处理分类问题，也可处理回归问题，其中分类和回归的主要区别在于最后做预测时的决策方式不同。KNN做回归预测时一般采用平均法，预测结果为最近的K个样本数据的平均值。

最近邻算法实现

06-24

参考<>一书第二章k近邻算法，第二节【使用k近邻算法改进约会网站的配对效果】所写成。

Python+K邻近

11-17

def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat = tile(inX, (dataSetSize,1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 sortedDistIndicies = distances.argsort() classCount={} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] 为了赚点积分，不是灌水啊。

【python】K近邻算法（k-Nearest Neighbors，KNN）解决分类问题

weixin_48618536的博客

07-01

2818

分类算法是一类机器学习算法，用于将不同的数据实例分到预定义的类别或标签中。以下是一些常见的分类算法：逻辑回归（Logistic Regression）：通过对线性函数应用sigmoid函数，将数据映射到一个概率值，然后根据阈值对数据进行二分类。决策树（Decision Tree）：构建一棵树状结构来表示特征之间的关系，并根据特征的取值分割数据，最终将数据分到不同的类别中。支持向量机（Support Vector Machine，SVM）：寻找一个超平面来确保不同类别的数据之间的最大间隔。

Python基础算法解析：K最近邻算法

Echo_Wish

03-16

554

K最近邻算法是一种基于实例的学习方法，其核心思想是：如果一个样本在特征空间中的k个最相似（即最近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法不需要训练模型，而是利用训练集中的数据进行预测。K最近邻算法是一种简单而强大的监督学习算法，适用于分类和回归问题。通过本文的介绍，你已经了解了KNN算法的原理、实现步骤以及如何使用Python进行编程实践。希望本文能够帮助你更好地理解和应用KNN算法。

Python机器学习分类算法（五）-- 最近邻算法（k-Nearest Neighbors，KNN）

wodertianna的博客

06-21

895

k-最近邻（k-Nearest Neighbors，KNN）算法是一种基本的机器学习分类和回归算法。在分类问题中，KNN通过测量不同特征值之间的距离来进行分类。它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签

最近邻算法(KNN)Python实现

qq_32318629的博客

11-27

4947

实验要求第一个实验数据集：Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。该数据集是4个最流行的机器学习数据集之一。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。实验要求：读入Iris.csv数据，并将数据的70%做为训练数据，30%做为测试数据；根据KNN算法思想，实现...

Python实战开发及案例分析（26）—— 近邻算法

贾贾的博客

05-16

1026

近邻算法（Nearest Neighbor Algorithm），尤其是在机器学习和数据科学中，通常指的是k最近邻（k-Nearest Neighbors, k-NN）算法。这是一种基本的分类和回归方法，它通过测量不同特征点之间的距离来进行预测。这里，我们将详细探讨如何用Python实现k-NN算法，并通过一个分类案例来分析其应用。

Python 机器学习 K-近邻算法

weixin_42098295的博客

01-30

1793

它是一种基于实例的学习（Instance-based learning），或者称为懒惰学习（Lazy learning），因为它不会从训练数据中学习一个固定的模型，而是使用整个数据集进行预测。在回归问题中，则通常是这些邻居值的平均值。选取合适的K值是至关重要的，太小的K值会使模型对噪声敏感，而太大的K值可能使模型无法捕捉到数据的特性。参数指定了计算最近邻的方法，可选项包括 'auto', 'ball_tree', 'kd_tree', 'brute'，其中'auto'会自动选择最适合数据的算法。

Python机器学习算法实践笔记及资源分享

资源内容涵盖了包括线性回归（Linear Regression）、感知器（Perceptron）、K最近邻算法（KNN）、朴素贝叶斯分类器（Naive Bayes）、决策树（Decision Tree）、逻辑回归（Logistic Regression）、支持向量机（SVM）...