基于K-近邻算法的分类器的实现

原创已于 2025-03-24 13:24:33 修改 · 968 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#近邻算法 #算法

于 2025-03-24 13:23:34 首次发布

前言

在机器学习中，分类问题是一个常见的任务。K近邻（KNN）算法是一种简单但有效的分类方法。本文将介绍KNN算法的原理，并展示如何用Python实现一个基于KNN的分类器。

一、KNN算法是什么？

KNN算法的核心思想是：通过计算新样本与已有样本的距离，找到距离最近的K个邻居，然后根据这些邻居的类别来决定新样本的类别。

KNN的优点：

简单易懂：不需要复杂的数学推导，直接通过距离计算就能分类。
适用于多分类问题：可以处理多个类别的分类任务。
对异常值不敏感：因为是基于邻居投票，异常值的影响较小。

KNN的实现步骤：

计算距离：计算新样本与每个训练样本的距离（常用欧氏距离）。
选择K值：确定要用多少个邻居（K值）来投票。
选择邻居：找到距离最近的K个样本。
投票决定类别：根据K个邻居的类别，选出票数最多的类别作为新样本的类别。

二、基于KNN的分类器实现

我们可以用Python来实现一个KNN分类器，以下是具体步骤：

1. 导入库

首先，导入必要的库，比如numpy（用于数值计算）和scikit-learn（提供机器学习工具）。

2. 数据准备

准备训练数据和测试数据，并进行数据预处理（比如归一化，让所有特征在相同的尺度上）。

3. 训练模型

使用训练数据训练KNN模型。在scikit-learn中，可以用KNeighborsClassifier类来实现。

4. 评估模型

用测试数据评估模型的性能，计算准确率、召回率等指标。

5. 调优参数

通过调整K值或距离度量方法，优化模型的性能。

三、算法实现

1. 问题引入

假设有一个约会网站，用户有三种类型：

不喜欢的人
一般喜欢的人
非常喜欢的人

用户的特征包括：

每年飞行里程数
玩游戏的时间百分比
每周消费的冰淇淋量

我们的任务是设计一个分类器，根据这些特征判断是否推荐该用户。

2. 导入库

导入numpy库，用于处理数据。

python

复制

import numpy as np

3. 数据可视化

用散点图展示数据特征，帮助我们理解数据的分布。

import matplotlib.pyplot as plt
# 画散点图
plt.scatter(data[:, 0], data[:, 1], c=labels)
plt.show()

4. 归一化处理

由于特征的尺度不同（比如飞行里程数和冰淇淋量），我们需要对数据进行归一化，让所有特征在相同的范围内。

def normalize(data):
    min_vals = data.min(0)
    max_vals = data.max(0)
    ranges = max_vals - min_vals
    normalized_data = (data - min_vals) / ranges
    return normalized_data

5. 实现KNN分类器

定义一个函数，计算新样本与训练样本的距离，并找到最近的K个邻居。

python

复制

def knn_classify(new_sample, data, labels, k):
    distances = np.sqrt(np.sum((data - new_sample)**2, axis=1))  # 计算距离
    nearest_indices = np.argsort(distances)[:k]  # 找到最近的K个邻居
    nearest_labels = labels[nearest_indices]  # 获取邻居的类别
    result = np.bincount(nearest_labels).argmax()  # 投票决定类别
    return result

6. 测试准确率

用测试数据评估分类器的性能，计算错误率。

error_count = 0
for i in range(test_size):
    result = knn_classify(test_data[i], train_data, train_labels, k=3)
    if result != test_labels[i]:
        error_count += 1
print("错误率：", error_count / test_size * 100, "%")

7. 进行分类

最后，我们可以用训练好的分类器对新样本进行分类。

def classify_person():
    miles = float(input("每年飞行里程数："))
    game_time = float(input("玩游戏的时间百分比："))
    ice_cream = float(input("每周消费的冰淇淋量："))
    new_sample = np.array([miles, game_time, ice_cream])
    normalized_sample = (new_sample - min_vals) / ranges
    result = knn_classify(normalized_sample, train_data, train_labels, k=3)
    print("分类结果：", result)