机器学习中的数据处理、模型分类与验证
一、数据处理与可视化
1.1 数据基本信息
首先,我们有一组数据,通过查看其形状可知,有 1797 个样本,每个样本包含 64 个特征,代码如下:
# 这里假设 digits 是已加载的数据集
# 查看数据特征矩阵的形状
print(digits.data.shape) # Out[24]: (1797, 64)
# 查看目标标签的形状
y = digits.target
print(y.shape) # Out[25]: (1797,)
1.2 降维处理
由于在 64 维的参数空间中难以有效可视化数据点,因此我们使用无监督方法将数据维度降至 2 维。这里采用 Isomap 流形学习算法,代码如下:
from sklearn.manifold import Isomap
# 创建 Isomap 对象,指定降维后的维度为 2
iso = Isomap(n_components=2)
# 拟合数据
iso.fit(digits.data)
# 进行数据转换
data_projected = iso.transform(digits.data)
print(data_projected.shape) # Out[26]: (1797, 2)
从输出结果可知,投影后的数据变为二维。
1.3 数据可视化
接下来,我们对降维后的数据进行可视化,以了解不同数字在