KNN算法做预测的几个例子

准备工作

# 安装机器学习算法所用到的第三方库
pip install numpy
pip install pandas
pip install scikit-learn
pip install matplotlib

KNN算法

示例一: 鸢尾花数据集分类

  • Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。
  • 数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性(花萼长度,花萼宽度,花瓣长度,花瓣宽度)。
  • 可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于山鸢尾杂色鸢尾维吉尼亚鸢尾3个种类中的哪一类。
# 1.导入必要的库
# numpy 和 pandas:用于数据处理
import numpy as np
import pandas as pd
# train_test_split:用于将数据集拆分为训练集和测试集
from sklearn.model_selection import train_test_split
# StandardScaler:用于标准化特征数据,确保各特征的均值为0,方差为1
from sklearn.preprocessing import StandardScaler
# KNeighborsClassifier:KNN分类器模型
from sklearn.neighbors import KNeighborsClassifier
# accuracy_score:用于评估分类器性能的准确率
from sklearn.metrics import accuracy_score
# 生成一个简单的示例数据集(例如鸢尾花数据集)
from sklearn.datasets import load_iris
# 导入 matplotlib 库的 pyplot 模块,提供简便的绘图接口
import matplotlib.pyplot as plt
# 导入 ListedColormap 类,用于创建基于颜色列表的离散颜色映射
from matplotlib.colors import ListedColormap

# 2.加载鸢尾花数据集
iris = load_iris()
# 为了简化可视化,我们只选择了前两个特征(花萼长度和花萼宽度),存储在X中
X = iris.data[:, :2] 
# 标签数组:标签 y 包含这150个样本的类别标签(0、1、2)
y = iris.target

# 3.切分数据集为训练集和测试集(70%训练,30%测试)
# 使用train_test_split将数据集分为训练集和测试集,其中70%的数据用于训练,30%的数据用于测试
# random_state=42确保每次运行代码时数据拆分是相同的,这样便于结果的复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 特征标准化处理:KNN对特征的尺度非常敏感,因此需要进行标准化,使用StandardScaler对数据进行标准化处理,使每个特征的均值为0,方差为1
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 4.创建KNN分类器,选择邻居数为3
# 我们创建了一个KNeighborsClassifier实例,并指定邻居数(n_neighbors=3)
# KNN的核心是根据测试样本与训练样本的距离来选择最近的K个邻居。这里我们选择3个邻居进行投票决策
knn = KNeighborsClassifier(n_neighbors=3)

# 5.训练KNN模型
# 使用knn.fit(X_train, y_train)来训练模型。训练过程是根据训练数据来学习各个数据点之间的距离
knn.fit(X_train, y_train)

# 6.预测测试集结果
# 使用knn.predict(X_test)对测试集进行预测,得到预测的类别标签
y_pred = knn.predict(X_test)

# 7.计算预测准确率
# 使用accuracy_score(y_test, y_pred)计算模型在测试集上的准确率,并输出结果
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的预测准确率为: {accuracy * 100:.2f}%")

# 8.可视化部分
# 8.1 绘制数据点的散点图
# 设置字体配置,支持中文标签
plt.rcParams['font.family'] = ['sans-serif']# 设置字体为无衬线字体
plt.rcParams['font.sans-serif'] = ['SimHei']# 设置字体为 SimHei(黑体)以支持中文显示
plt.rcParams['axes.unicode_minus']=False# 解决负号显示问题,使得负号正常显示
plt.figure(figsize=(12, 6))# 创建一个 12x6 的画布大小

# 绘制训练集的散点图
plt.subplot(1, 2, 1)# 1行2列的第一个子图
# 绘制 X_train 中的花萼长度和花萼宽度,并根据标签 y_train 给数据点上色,使用 Paired 颜色映射
# edgecolors='k' 设置点的边缘颜色为黑色,s=30 设置点的大小为30
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=plt.cm.Paired, edgecolors='k', s=30)
plt.title("训练集 - 花萼长度 vs 花萼宽度")# 子图标题
plt.xlabel("花萼长度 (cm)")# x轴标签
plt.ylabel("花萼宽度 (cm)")# y轴标签
# 绘制测试集的散点图
plt.subplot(1, 2, 2)# 1行2列的第二个子图
# 绘制 X_test 中的花萼长度和花萼宽度,并根据预测值 y_pred 给数据点上色,使用 Paired 颜色映射
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred, cmap=plt.cm.Paired, edgecolors='k', s=30)
plt.title("测试集 - 花萼长度 vs 花萼宽度")# 子图标题
plt.xlabel("花萼长度 (cm)")# x轴标签
plt.ylabel("花萼宽度 (cm)")# y轴标签
plt.tight_layout()# 自动调整子图的布局,避免标签和标题重叠
plt.show()# 显示图形

# 8.2 可视化KNN决策边界
# 这里我们仅用前两个特征来简化可视化
X_train_2d = X_train[:, :2]# 提取训练集的前两个特征(花萼长度和花萼宽度)
X_test_2d = X_test[:, :2]# 提取测试集的前两个特征(花萼长度和花萼宽度)
# 创建KNN模型并训练
knn_2d = KNeighborsClassifier(n_neighbors=3)# 创建 KNN 分类器,设置邻居数量为3
knn_2d.fit(X_train_2d, y_train)# 用训练集的前两个特征进行模型训练
# 创建一个网格来绘制决策边界
x_min, x_max = X_train_2d[:, 0].min() - 1, X_train_2d[:, 0].max() + 1 # x 轴的范围,添加边距
y_min, y_max = X_train_2d[:, 1].min() - 1, X_train_2d[:, 1].max() + 1 # y 轴的范围,添加边距
# 使用 np.meshgrid 创建网格(以 0.1 为步长),覆盖整个特征空间
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))
# 使用训练好的 KNN 分类器对网格上的每个点进行预测
Z = knn_2d.predict(np.c_[xx.ravel(), yy.ravel()])# 将 xx 和 yy 网格点合并,然后预测
Z = Z.reshape(xx.shape)# 将预测结果重新 reshape 为网格的形状

# 设置绘图字体,支持中文显示
plt.rcParams['font.family'] = ['sans-serif']# 设置字体为无衬线字体
plt.rcParams['font.sans-serif'] = ['SimHei']# 设置字体为 SimHei(黑体)以支持中文显示
plt.rcParams['axes.unicode_minus']=False# 解决负号显示问题,使得负号正常显示
plt.figure(figsize=(12, 6))# 创建一个 12x6 的画布大小

# 绘制 KNN 决策边界和测试集的数据点
plt.subplot(1, 2, 1)# 1行2列的第一个子图
# 使用 contourf 绘制决策边界,alpha 设置透明度,cmap 设置颜色映射
plt.contourf(xx, yy, Z, alpha=0.3, cmap=ListedColormap(['red', 'green', 'blue']))
# 绘制测试集数据点,并根据真实标签 y_test 给数据点上色
plt.scatter(X_test_2d[:, 0], X_test_2d[:, 1], c=y_test, edgecolors='k', cmap=ListedColormap(['red', 'green', 'blue']))
plt.title('KNN决策边界 - 测试集')# 子图标题
plt.xlabel('花萼长度 (cm)')# x轴标签
plt.ylabel('花萼宽度 (cm)')# y轴标签
plt.tight_layout()# 自动调整子图的布局,避免标签和标题重叠
plt.show()# 显示图形

示例二:葡萄酒数据集分类

  • load_wine是一个葡萄酒数据集,是一类多重变量分析的数据集。
  • 数据集包含178个数据样本,分为3类,第一类59个样本,第二类71个样本,第三类48个样本,每个样本包含13个化学特征(这些化学特征包括酸度、灰分、酒精浓度等)。
  • 可通过酸度、灰分、酒精浓度等化学特征预测葡萄酒属于琴酒雪莉贝尔莫得3个种类中的哪一类。
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt

# 加载 Wine 数据集
wine = load_wine()
X = wine.data[:, :2]  # 只使用前两个特征进行可视化
y = wine.target # wine.target:这是一个包含类别标签的数组,指示每个葡萄酒样本的分类(共有 3 类)。

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化 KNN 分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = knn.predict(X_test)

# 计算预测准确率
# 使用accuracy_score(y_test, y_pred)计算模型在测试集上的准确率,并输出结果
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的预测准确率为: {accuracy * 100:.2f}%")

# 可视化结果
plt.figure(figsize=(8, 6))

# 绘制决策边界
xx, yy = np.meshgrid(np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100),
                     np.linspace(X[:, 1].min() - 1, X[:, 1].max() + 1, 100))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.Paired)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolors='k', cmap=plt.cm.Paired)
plt.title('KNN Classification (Wine Dataset)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

示例三:乳腺癌肿瘤数据集分类

  • load_breast_cancer是一个乳腺癌肿瘤数据集,是一类多重变量分析的数据集。
  • 数据集包含569个数据样本,分为2类,第一类357个样本,第二类212个样本,每个样本包含30个属性(这些属性包括肿瘤的半径、纹理、对称性等)。
  • 可通过半径、纹理、对称性等属性预测肿瘤属于良性(B)恶性(M)2个种类中的哪一类。
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt

# 加载乳腺癌数据集
cancer = load_breast_cancer()
X = cancer.data[:, :2]  # 只使用前两个特征进行可视化
y = cancer.target # cancer.target:包含 0 和 1 的标签,分别表示良性(B)和恶性(M)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化 KNN 分类器
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = knn.predict(X_test)

# 计算预测准确率
# 使用accuracy_score(y_test, y_pred)计算模型在测试集上的准确率,并输出结果
accuracy = accuracy_score(y_test, y_pred)
print(f"模型的预测准确率为: {accuracy * 100:.2f}%")

# 可视化结果
plt.figure(figsize=(8, 6))

# 绘制决策边界
xx, yy = np.meshgrid(np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100),
                     np.linspace(X[:, 1].min() - 1, X[:, 1].max() + 1, 100))
Z = knn.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.3, cmap=plt.cm.RdBu)
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolors='k', cmap=plt.cm.RdBu)
plt.title('KNN Classification (Breast Cancer Dataset)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()
在Java中实现K-Nearest Neighbors (KNN) 算法通常涉及到几个步骤,这里提供一个简单的例子来说明如何使用欧氏距离计算邻居并预测类别。首先,你需要准备数据集、计算距离函数以及选择K值。 ```java import java.util.ArrayList; import java.util.List; // 定义一个点类,包含坐标和标签 class Point { double[] coordinates; int label; public Point(double[] coordinates, int label) { this.coordinates = coordinates; this.label = label; } } // 计算两点之间的欧氏距离 public class DistanceUtil { public static double euclideanDistance(Point a, Point b) { double sum = 0.0; for (int i = 0; i < a.coordinates.length; i++) { sum += Math.pow(a.coordinates[i] - b.coordinates[i], 2); } return Math.sqrt(sum); } } // KNN 主类,假设已有的训练数据集 public class KNNClassifier { private List<Point> dataset; // 构造函数 public KNNClassifier(List<Point> data) { this.dataset = data; } // 预测新点的标签 public int predict(double[] newCoordinates, int k) { Point nearest = null; double minDistance = Double.MAX_VALUE; for (Point point : dataset) { double distance = DistanceUtil.euclideanDistance(new Point(newCoordinates, 0), point); // 临时忽略label if (distance < minDistance) { minDistance = distance; nearest = point; } } // 找到k个最近邻 List<Point> neighbors = new ArrayList<>(); for (Point p : dataset) { if (!p.equals(nearest)) { neighbors.add(p); } if (neighbors.size() == k) { break; } } // 根据邻居的多数标签返回预测结果 int mostCommonLabel = findMostCommonLabel(neighbors); return mostCommonLabel; } private int findMostCommonLabel(List<Point> neighbors) { int count = 0, maxCount = 0; int majorityLabel = 0; for (Point neighbor : neighbors) { if (neighbor.label > maxCount) { maxCount = neighbor.label; majorityLabel = neighbor.label; } } return majorityLabel; } } // 使用示例 public class Main { public static void main(String[] args) { List<Point> trainData = ...; // 实际上从文件或数据库加载数据 // 创建KNN分类器实例,并进行预测 KNNClassifier knn = new KNNClassifier(trainData); double[] testCoordinates = {1.0, 2.0}; // 示例的新点 int predictedLabel = knn.predict(testCoordinates, 3); // 选择k=3作为近邻数 System.out.println("预测标签: " + predictedLabel); } } ``` 这个例子展示了如何使用KNN算法的基本原理,但在实际应用中,你还需要处理数据预处理、异常检查等问题。此外,为了性能考虑,可以使用优先队列或其他高效的数据结构来存储邻居。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

和安韩Pro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值