KNN算法

最新推荐文章于 2026-01-04 19:40:08 发布

原创

最新推荐文章于 2026-01-04 19:40:08 发布 · 901 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

1. KNN算法概述

KNN是一种基于实例的非参数化学习算法（instance-based, non-parametric），属于监督学习和懒惰学习（lazy learning）。它通过计算样本之间的距离，找到与目标样本最近的K个邻居，并根据这些邻居的标签或值进行预测。

1.1 核心思想

分类任务：根据K个最近邻居的类别，通过多数投票（majority voting）决定目标样本的类别。
回归任务：根据K个最近邻居的数值，取平均值（或加权平均）作为目标样本的预测值。

1.2 特点

简单直观：无需显式训练模型，算法逻辑易于理解。
非参数化：不假设数据的分布，适用于各种数据分布。
懒惰学习：训练阶段仅存储数据，计算在预测时进行，适合动态数据。
局部性：预测依赖于局部邻居，适合非线性数据。
缺点：对噪声敏感、计算复杂度高（尤其在大数据集上）、对K值和距离度量敏感。

2. KNN算法工作原理

KNN的核心步骤可以概括为以下几点：

准备数据：收集并预处理训练数据集，包含特征和标签（分类）或目标值（回归）。
选择K值：确定邻居数量K（超参数）。
计算距离：对测试样本，计算其与训练集中所有样本的距离。
选择K个最近邻居：根据距离排序，选取前K个最近的样本。
预测：
- 分类：通过多数投票确定类别。
- 回归：计算K个邻居的平均值（或加权平均）。
评估：使用测试集评估模型性能（如准确率、均方误差）。

2.1 数学表达

假设我们有一个训练数据集 $\{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}$ ，其中：

$xi∈Rdx_i \in \mathbb{R}^d$ 是d维特征向量。
$y_i$ 是标签（分类任务中为类别，回归任务中为实数值）。
测试样本为 $x$ ，需要预测其标签 $y$ 。

步骤1：计算距离

常用距离度量包括：

欧几里得距离（Euclidean Distance）：
$x_i) = \sqrt{\sum_{j=1}^d (x_j - x_{i,j})^2}$
曼哈顿距离（Manhattan Distance）：
$x_i) = \sum_{j=1}^d |x_j - x_{i,j}|$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。