K-最近邻(K-Nearest Neighbors, KNN)是一种简单且直观的监督学习算法,广泛应用于分类和回归任务。本文将介绍KNN算法的基本概念、实现细节以及Python代码示例。
基本概念
KNN算法的核心思想是:给定一个测试样本,根据其在特征空间中与训练样本的距离,找到距离最近的K个训练样本(邻居),然后通过这些邻居的标签来决定测试样本的标签。在分类任务中,KNN通过对K个邻居的标签进行投票,选择出现次数最多的标签作为预测结果;在回归任务中,KNN通过对K个邻居的标签进行平均来预测结果。
算法步骤
- 计算距离:计算测试样本与每个训练样本之间的距离。
- 选择最近的K个邻居:根据距离选择K个最近的训练样本。
- 投票:在K个最近邻居中,选择出现次数最多的类别作为预测结果。
距离度量
在KNN算法中,通常使用欧氏距离(Euclidean Distance)来度量样本之间的距离。
实现代码
下面是一个使用 numpy
实现的 KNN 分类器的示例代码:
import numpy as np
from collections import Counter
class KNN:
def __init__(self, k=3):
self.k = k
def fit(self, X_train, y_train):
"""
训练KNN分类器,保存训练数据。
参数:
- X_train: 训练样本特征,形状 (num_samples, num_features)
- y_train: 训练样本标签,形状 (num_samples,)
"""
self.X_train = X_train
self.y_train = y_train
def predict(self