7、机器学习数据集分析与处理-优快云博客

本文链接：https://blog.youkuaiyun.com/lambda/article/details/152427762

机器学习数据集分析与处理

在机器学习中，数据集的选择和处理是至关重要的步骤。我们将探讨两个不同的数据集：建筑能源效率数据集和手写数字数据集（MNIST）。

对于建筑能源效率数据集，为避免过拟合，需要将数据拆分为训练集和测试集。之前的示例代码将数据随机拆分为 80% 的训练集和 20% 的测试集。由于数据集相对较小，这里不设置验证集，而是采用交叉验证的方法。

在选择响应变量时，有两个变量可供选择，这里选择了 Y2（冷却负荷），因为相关资料表明它更难预测。需要注意的是，在单个 H2O 模型中不能有多个响应变量，如果要预测两个不同的结果，需要构建两个模型。

MNIST 数据集可追溯到 1998 年，任务是识别手写数字。该数据集规模较大，有 785 列，最后一列是正确答案（0 - 9），前 784 列是 28x28 网格的灰度像素，取值范围从 0（白色）到 255（黑色）。

数据已经分为训练集（60,000 行）和测试集（20,000 行），但没有验证集。这里选择随机拆分出 10,000 行作为验证数据，剩下 50,000 行作为训练数据。

以下是加载 MNIST 数据集的代码示例：

library(h2o)
h2o.init(nthreads = -1, max_mem_size = "3G")
train60K <- h2o.importFile("../datasets/mnist.tra