27、机器学习中的数据处理、模型分类与验证-优快云博客

本文链接：https://blog.youkuaiyun.com/a1b2c/article/details/149587795

机器学习中的数据处理、模型分类与验证

一、数据处理与可视化

1.1 数据基本信息

首先，我们有一组数据，通过查看其形状可知，有 1797 个样本，每个样本包含 64 个特征，代码如下：

# 这里假设 digits 是已加载的数据集
# 查看数据特征矩阵的形状
print(digits.data.shape)  # Out[24]: (1797, 64)
# 查看目标标签的形状
y = digits.target
print(y.shape)  # Out[25]: (1797,)

1.2 降维处理

由于在 64 维的参数空间中难以有效可视化数据点，因此我们使用无监督方法将数据维度降至 2 维。这里采用 Isomap 流形学习算法，代码如下：

from sklearn.manifold import Isomap
# 创建 Isomap 对象，指定降维后的维度为 2
iso = Isomap(n_components=2)
# 拟合数据
iso.fit(digits.data)
# 进行数据转换
data_projected = iso.transform(digits.data)
print(data_projected.shape)  # Out[26]: (1797, 2)

从输出结果可知，投影后的数据变为二维。