1.机器学习之(4) Handwritten Digits Data Set初体验

本文通过使用sklearn库中的手写数字数据集,演示了如何加载数据、进行数据预处理,并应用k近邻(kNN)算法进行分类预测。通过可视化部分样本,读者可以直观了解数据特点。在划分训练集和测试集后,kNN模型达到了98.6%的准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

载入数据

import numpy as np
import matplotlib 
import matplotlib.pyplot as plt
from sklearn import datasets
digits = datasets.load_digits()

得到数据集中的数据

X = digits.data
y = digits.target

可视化一下,二进制图像显示

随便选一个样本

some_digit = X[111]
some_digit_image = some_digit.reshape(8,8)
plt.imshow(some_digit_image, cmap = matplotlib.cm.binary)
plt.show()

y[111]

输出为4。

调用sklearn库

数据预处理

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

创建kNN模型并训练

from sklearn.neighbors import KNeighborsClassifier
kNN_classifier = KNeighborsClassifier(n_neighbors=3)
kNN_classifier.fit(X_train, y_train)

测试模型准确率

kNN_classifier.score(X_test,y_test)

输出

0.9861111111111112
### 开源数据集推荐 对于初学者来说,有许多高质量的开源数据集可以用来练习数据挖掘和机器学习技能。这些数据集涵盖了不同的领域和复杂度,能够帮助用户更好地理解模型的工作原理以及如何优化它们。 #### 常见的数据集平台 Kaggle 是一个非常受欢迎的学习资源网站,它不仅提供了大量的竞赛机会,还拥有丰富的公开数据集供用户下载并进行实验[^1]。另一个值得提及的是 UCI Machine Learning Repository, 这里汇集了许多经典的小型到中型规模的数据集合,非常适合新手尝试各种算法[^2]。 以下是几个具体推荐的数据集1. **Iris Dataset** - 描述:这是一个经典的多分类问题数据集,包含了三种鸢尾花的信息及其四个特征变量。 - 使用场景:适用于监督学习中的分类任务训练。 2. **Titanic Survival Prediction** - 来自 Kaggle 的比赛之一,目标是预测泰坦尼克号沉没事件中的乘客生存状态。 - 特征包括年龄、性别、船票价格等社会经济因素。 - 此案例有助于了解缺失值处理方法及特征工程的重要性[^3]。 3. **MNIST Handwritten Digits Database** - 提供了大量手写数字图像样本用于光学字符识别研究或一般目的模式分析。 - 对于初次接触深度神经网络的人来说是一个很好的起点。 4. **Wine Quality Data Set (from UCI ML Repo)** - 记录了红酒品质评分与其他物理化学属性之间的关系。 - 可作为回归或者二元/多元逻辑斯谛回归的例子来探索因果关联强度评估技术。 5. **Adult Income Dataset** - 预测一个人年收入是否超过 $50k$ ,基于人口普查记录的各种个人信息字段构建而成。 - 它展示了真实世界中存在的类别不平衡现象,并鼓励思考相应的解决方案。 ```python import pandas as pd url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv' data = pd.read_csv(url, sep=';') print(data.head()) ``` 以上代码片段演示了如何加载 Wine Quality 数据集进入 Python 环境以便进一步操作分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值