K-近邻算法（K-Nearest Neighbors, KNN）原理详解_更进一步了解k近邻算法在上一节的内容中,我们已经介绍了knn算法的基础知识,在这-优快云博客

本文链接：https://blog.youkuaiyun.com/2401_86968005/article/details/145864622

K-近邻算法（K-Nearest Neighbors, KNN）原理详解

1. 引言

K-近邻算法（KNN）是一种基于实例的监督学习算法，用于分类和回归任务。其核心思想是：给定一个样本，通过计算其与训练集中所有样本的距离，找到距离最近的K个样本，根据这些邻居的标签或值来预测目标样本的标签或值。

2. 算法原理

2.1 基本概念

距离度量：常用的距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。
K值选择：K值决定了邻居的数量，通常通过交叉验证选择最优K值。

2.2 分类任务

对于分类任务，KNN通过多数投票法确定目标样本的类别：
$\hat{y} = \text{mode}(y_{i_1}, y_{i_2}, ..., y_{i_K})$

2.3 回归任务

对于回归任务，KNN通过邻居的平均值确定目标样本的值：
$\hat{y} = \frac{1}{K} \sum_{j=1}^K y_{i_j}$

3. 距离度量

3.1 欧氏距离

$\sqrt{\sum_{i=1}^n (x_i - y_i)^2}$

3.2 曼哈顿距离

$\sum_{i=1}^n |x_i - y_i|$

3.3 闵可夫斯基距离

$\left( \sum_{i=1}^n |x_i - y_i|^p \right)^{1/p}$

4. K值选择

4.1 小K值

优点：对局部特征敏感，能够捕捉细节。
缺点：容易受到噪声影响，可能导致过拟合。

4.2 大K值

优点：减少噪声影响，模型更稳定。
缺点：可能忽略局部特征，导致欠拟合。

4.3 交叉验证

通过交叉验证选择最优K值，平衡模型的偏差和方差。

5. 实现示例

5.1 Scikit-learn实现

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 训练模型
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估准确率
print("Accuracy:", accuracy_score(y_test, y_pred))