机器学习实训（2）——分类（补充）

最新推荐文章于 2024-08-04 12:43:13 发布

WHJ226

最新推荐文章于 2024-08-04 12:43:13 发布

阅读量1.4k

点赞数 3

分类专栏：机器学习文章标签：机器学习分类人工智能

本文链接：https://blog.youkuaiyun.com/WHJ226/article/details/126686269

版权

本文介绍了如何构建KNN分类器处理MNIST数据集，达到超过97%的测试精度。讲解了np.random.permutation()、KNeighborsClassifier和GridSearchCV的使用。接着，通过Kaggle上的Titanic数据集，演示了数据预处理过程，包括数据下载、缺失值处理和特征选择，最后展示了如何使用RandomForestClassifier提高模型准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 构建分类器

1.1 np.random.permutation()

1.2 KNeighborsClassifier()

1 构建分类器

为MNIST数据集构建一个分类器，并在测试集上达成超过97%的精度。

下面进行代码展示：

#1、获取MNIST数据集
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1, cache=True, as_frame=False)

#2、划分数据集
import numpy as np

X, y = mnist["data"], mnist["target"]

#MNIST默认划分的训练集和测试集
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:] 

#数据重新洗牌，防止算法对训练实例的顺序敏感
shuffle_index = np.random.permutation(60000)#生成一个随机排列的数组
X_train, y_train = X_train[shuffle_index], y_train[shuffle_index]


#注意对自己电脑硬件不自信不要运行下面代码，以防蓝屏，可以了解一下思想
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

param_grid = [{'weights': ["uniform", "distance"], 'n_neighbors': [3, 4, 5]}]

knn_clf = KNeighborsClassifier()
grid_search = GridSearchCV(knn_clf, param_grid, cv=5, verbose=3, n_jobs=-1)
grid_search.fit(X_train, y_train)

找到合适的超参数：

grid_search.best_params_

运行结果如下：

{'n_neighbors': 4, 'weights': 'distance'}

得分：

grid_search.best_score_

运行结果如下：

0.97325

预测精度：

from sklearn.metrics import accuracy_score

y_pred = grid_search.predict(X_test)
accuracy_score(y_test, y_pred)

运行结果如下：

0.9714

我们就代码中包含的知识点进行简单讲解：

1.1 np.random.permutation()

对给定的数组重新排列。

import numpy as np

arr = np.random.permutation(6)
print(arr)

运行结果如下：

[2 5 4 0 3 1]

另外对数组进行重新排列的还包括：np.random.shuffle(arr)

arr = np.arange(6)
print(arr)
np.random.shuffle(arr)
print(arr)

运行结果如下：

[0 1 2 3 4 5]
[4 5 1 2 0 3]

1.2 KNeighborsClassifier()

中文文档说明：sklearn.neighbors.KNeighborsClassifier-scikit-learn中文社区

英文文档说明：sklearn.neighbors.KNeighborsClassifier — scikit-learn 1.1.2 documentation

我们看一下文档中参数：

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs）

参数	说明
n_neighbors	int, default=5 默认情况下用于kneighbors查询的近邻数
weights	{‘uniform’, ‘distance’} or callable, default=’uniform’ 预测中使用的权重函数。可能的值： “uniform”：统一权重。每个邻域中的所有点均被加权。 “distance”：权重点与其距离的倒数。在这种情况下，查询点的近邻比远处的近邻具有更大的影响力。 [callable]：用户定义的函数，该函数接受距离数组，并返回包含权重的相同形状的数组。
algorithm	{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’ 用于计算最近临近点的算法： “ ball_tree”将使用BallTree kd_tree”将使用KDTree “brute”将使用暴力搜索。 “auto”将尝试根据传递给fit方法的值来决定最合适的算法。注意：在稀疏输入上进行拟合将使用蛮力覆盖此参数的设置。
leaf_size	int, default=30 叶大小传递给BallTree或KDTree。这会影响构造和查询的速度，以及存储树所需的内存。最佳值取决于问题的性质。
p	int, default=2 Minkowski指标的功率参数。当p = 1时，这等效于对p = 2使用manhattan_distance（l1）和euclidean_distance（l2）。对于任意p，使用minkowski_distance（l_p）。
metric	str or callable, default=’minkowski’ 树使用的距离度量。默认度量标准为minkowski，p = 2等于标准欧几里德度量标准。有关可用度量的列表，请参见DistanceMetric的文档。如果度量是“预先计算的”，则X被假定为距离矩阵，并且在拟合过程中必须为平方。 X可能是一个稀疏图，在这种情况下，只有“非零”元素可以被视为临近点。
metric_params	dict, default=None 度量功能的其他关键字参数。
n_jobs	int, default=None 为临近点搜索运行的并行作业数。除非在joblib.parallel_backend上下文中，否则None表示1。 -1表示使用所有处理器。有关更多详细信息，请参见

最低0.47元/天解锁文章