KNN算法做预测的几个例子

原创已于 2024-12-11 20:35:57 修改 · 545 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2024-12-11 20:14:44 首次发布

python 专栏收录该内容

15 篇文章

订阅专栏

准备工作

# 安装机器学习算法所用到的第三方库
pip install numpy
pip install pandas
pip install scikit-learn
pip install matplotlib

KNN算法

示例一：鸢尾花数据集分类

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。
数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性（花萼长度，花萼宽度，花瓣长度，花瓣宽度）。
可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于山鸢尾，杂色鸢尾，维吉尼亚鸢尾3个种类中的哪一类。

# 1.导入必要的库
# numpy 和 pandas：用于数据处理
import numpy as np
import pandas as pd
# train_test_split：用于将数据集拆分为训练集和测试集
from sklearn.model_selection import train_test_split
# StandardScaler：用于标准化特征数据，确保各特征的均值为0，方差为1
from sklearn.preprocessing import StandardScaler
# KNeighborsClassifier：KNN分类器模型
from sklearn.neighbors import KNeighborsClassifier
# accuracy_score：用于评估分类器性能的准确率
from sklearn.metrics import accuracy_score
# 生成一个简单的示例数据集（例如鸢尾花数据集）
from sklearn.datasets import load_iris
# 导入 matplotlib 库的 pyplot 模块，提供简便的绘图接口
import matplotlib.pyplot as plt
# 导入 ListedColormap 类，用于创建基于颜色列表的离散颜色映射
from matplotlib.colors import ListedColormap

# 2.加载鸢尾花数据集
iris = load_iris()
# 为了简化可视化，我们只选择了前两个特征（花萼长度和花萼宽度），存储在X中
X = iris.data[:, :2] 
# 标签数组：标签 y 包含这150个样本的类别标签（0、1、2）
y = iris.target

# 3.切分数据集为训练集和测试集（70%训练，30%测试）
# 使用train_test_split将数据集分为训练集和测试集，其中70%的数据用于训练，30%的数据用于测试
# random_state=42确保每次运行代码时数据拆分是相同的，这样便于结果的复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 特征标准化处理：KNN对特征的尺度非常敏感，因此需要进行标准化，使用StandardScaler对数据进行标准化处理，使每个特征的均值为0，方差为1
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 4.创建KNN分类器，选择邻居数为3
# 我们创建了一个KNeighborsClassifier实例，并指定邻居数（n_neighbors=3）
# KNN的核心是根据测试样本与训练样本的距离来选择最近的K个邻居。这里我们选择3个邻居进行投票决策
knn = KNeighborsClassifier(n_neighbors=3)

# 5.训练KNN模型
# 使用knn.fit(X_train, y_train)来训练模型。训练过程是根据训练数据来学习各个数据点之间的距离
knn.fit(X_train, y_train)

# 6.预测测试集结果
# 使用knn.predict(X_test)对测试集进行预测，得到预测的类别标签
y_pred = knn.predict(X_test)

# 7.计算预测准确率
# 使用accuracy_score(y_test, y_pred)计算模型在测试集上的准确率，并输出结果
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的预测准确率为: {accuracy * 100:.2f}%")

# 8.可视化部分
# 8.1 绘制数据点的散点图
# 设置字体配置，支持中文标签
plt.rcParams['font.family'] = ['sans-serif']# 设置字体为无衬线字体
plt.rcParams['font.sans-serif'] = ['SimHei']# 设置字体为 SimHei（黑体）以支持中文显示
plt.rcParams['axes.unicode_minus']=False# 解决负号显示问题，使得负号正常显示
plt.figure(figsize=(12, 6))# 创建一个 12x6 的画布大小

# 绘制训练集的散点图
plt.subplot(1, 2, 1)# 1行2列的第一个子图
# 绘制 X_train 中的花萼长度和花萼宽度，并根据标签 y_train 给数据点上色，使用 Paired 颜色映射
# edgecolors='k' 设置点的边缘颜色为黑色，s=30 设置点的大小为30
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=plt.cm.Paired, edgecolors='k', s=30)
plt.title("训练集 - 花萼长度 vs 花萼宽度")# 子图标题
plt.xlabel("花萼长度 (cm)")# x轴标签
plt.ylabel("花萼宽度 (cm)")# y轴标签
# 绘制测试集的散点图
plt.subplot(1, 2, 2)# 1行2列的第二个子图
# 绘制 X_test 中的花萼长度和花萼宽度，并根据预测值 y_pred 给数据点上色，使用 Paired 颜色映射
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred, cmap=plt.cm.Paired, edgecolors='k', s=30)
plt.title("测试集 - 花萼长度 vs 花萼宽度")# 子图标题
plt.xlabel("花萼长度 (cm)")# x轴标签
plt.ylabel("花萼宽度 (cm)")# y轴标签
plt.tight_layout()# 自动调整子图的布局，避免标签和标题重叠
plt.show()# 显示图形

# 8.2 可视化KNN决策边界
# 这里我们仅用前两个特征来简化可视化
X_train_2d = X_train[:, :2]# 提取训练集的前两个特征（花萼长度和花萼宽度）
X_test_2d = X_test[:, :2]# 提取测试集的前两个特征（花萼长度和花萼宽度）
# 创建KNN模型并训练
knn_2d = KNeighborsClassifier(n_neighbors=3)# 创建 KNN 分类器，设置邻居数量为3
knn_2d.fit(X_train_2d, y_train)# 用训练集的前两个特征进行模型训练
# 创建一个网格来绘制决策边界
x_min, x_max = X_train_2d[:, 0].min() - 1, X_train_2d[:, 0].max() + 1 # x 轴的范围，添加边距
y_min, y_max = X_train_2d[:, 1].min() - 1, X_train_2d[:, 1].max() + 1 # y 轴的范围，添加边距
# 使用 np.meshgrid 创建网格（以 0.1 为步长），覆盖整个特征空间
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))
# 使用训练好的 KNN 分类器对网格上的每个点进行预测
Z = knn_2d.predict(np.c_[xx.ravel(), yy.ravel()])# 将 xx 和 yy 网格点合并，然后预测
Z = Z.reshape(xx.shape)# 将预测结果重新 reshape 为网格的形状

# 设置绘图字体，支持中文显示
plt.rcParams['font.family'] = ['sans-serif']# 设置字体为无衬线字体
plt.rcParams['font.sans-serif'] = ['SimHei']# 设置字体为 SimHei（黑体）以支持中文显示
plt.rcParams['axes.unicode_minus']=False# 解决负号显示问题，使得负号正常显示
plt.figure(figsize=(12, 6))# 创建一个 12x6 的画布大小

# 绘制 KNN 决策边界和测试集的数据点
plt.subplot(1, 2, 1)# 1行2列的第一个子图
# 使用 contourf 绘制决策边界，alpha 设置透明度，cmap 设置颜色映射
plt.contourf(xx, yy, Z, alpha=0.3, cmap=ListedColormap(['red', 'green', 'blue']))
# 绘制测试集数据点，并根据真实标签 y_test 给数据点上色
plt.scatter(X_test_2d[:, 0], X_test_2d[:, 1], c=y_test, edgecolors='k', cmap=ListedColormap(['red', 'green', 'blue']))
plt.title('KNN决策边界 - 测试集')# 子图标题
plt.xlabel('花萼长度 (cm)')# x轴标签
plt.ylabel('花萼宽度 (cm)')# y轴标签
plt.tight_layout()# 自动调整子图的布局，避免标签和标题重叠
plt.show()# 显示图形

示例二：葡萄酒数据集分类

load_wine是一个葡萄酒数据集，是一类多重变量分析的数据集。
数据集包含178个数据样本，分为3类，第一类59个样本，第二类71个样本，第三类48个样本，每个样本包含13个化学特征（这些化学特征包括酸度、灰分、酒精浓度等）。
可通过酸度、灰分、酒精浓度等化学特征预测葡萄酒属于琴酒，雪莉，贝尔莫得3个种类中的哪一类。

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt

# 加载 Wine 数据集
wine = load_wine()
X = wine.data[:, :2]  # 只使用前两个特征进行可视化
y = wine.target # wine.target：这是一个包含类别标签的数组，指示每个葡萄酒样本的分类（共有 3 类）。

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化 KNN 分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = knn.predict(X_test)

# 计算预测准确率
# 使用accuracy_score(y_test, y_pred)计算模型在测试集上的准确率，并输出结果
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的预测准确率为: {accuracy * 100:.2f}%")

# 可视化结果
plt.figure(figsize=(8, 6))

# 绘制决策边界
xx, yy = np.meshgrid(np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100),
                     np.linspace(X[:, 1].min() - 1, X[:, 1].max() + 1, 100))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolors='k', cmap=plt.cm.Paired)
plt.title('KNN Classification (Wine Dataset)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

示例三：乳腺癌肿瘤数据集分类

load_breast_cancer是一个乳腺癌肿瘤数据集，是一类多重变量分析的数据集。
数据集包含569个数据样本，分为2类，第一类357个样本，第二类212个样本，每个样本包含30个属性（这些属性包括肿瘤的半径、纹理、对称性等）。
可通过半径、纹理、对称性等属性预测肿瘤属于良性（B）、恶性（M）2个种类中的哪一类。

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt

# 加载乳腺癌数据集
cancer = load_breast_cancer()
X = cancer.data[:, :2]  # 只使用前两个特征进行可视化
y = cancer.target # cancer.target：包含 0 和 1 的标签，分别表示良性（B）和恶性（M）

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化 KNN 分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = knn.predict(X_test)

# 计算预测准确率
# 使用accuracy_score(y_test, y_pred)计算模型在测试集上的准确率，并输出结果
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的预测准确率为: {accuracy * 100:.2f}%")

# 可视化结果
plt.figure(figsize=(8, 6))

# 绘制决策边界
xx, yy = np.meshgrid(np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100),
                     np.linspace(X[:, 1].min() - 1, X[:, 1].max() + 1, 100))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.RdBu)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolors='k', cmap=plt.cm.RdBu)
plt.title('KNN Classification (Breast Cancer Dataset)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()