4、将数据导入 H2O 及数据操作指南

最新推荐文章于 2025-10-01 15:50:58 发布

lambda

最新推荐文章于 2025-10-01 15:50:58 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏： H2O机器学习实战精要文章标签： H2O 数据导入 CSV

本文链接：https://blog.youkuaiyun.com/lambda/article/details/152427754

H2O机器学习实战精要专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

将数据导入 H2O 及数据操作指南

在使用 H2O 机器学习算法时，数据必须存于 H2O 集群中，客户端仅持有指向 H2O 数据框的句柄（指针）。这种方式虽有时会让人困扰，但能处理集群中任何单台机器都无法容纳的大数据集。H2O 提供了多种导入数据的方法，下面将详细介绍。

加载 CSV 文件

之前的示例中，鸢尾花数据存于远程 Web 服务器的 CSV 文件中。这种方式很实用，无论使用本地机器还是云端远程集群都适用。数据文件可以来自 S3（亚马逊云文件存储）、HDFS（Hadoop 集群的文件系统），也可以是本地磁盘文件。

当客户端和 H2O 集群在同一台机器上时，相对文件路径通常可行。若相对路径导入失败，尝试使用完整路径是个不错的排查步骤。在线代码一般使用相对路径，假设“code”和“data sets”是同级目录。可在代码目录中启动 Jupyter、IPython、RStudio 或 R 会话，或编辑脚本使用完整路径。

以下是 Python 示例，R API 与之类似，只是将 h2o.import_file 替换为 h2o.importFile 。也可通过基于浏览器的 Flow 界面加载数据。

可能的上传路径示例如下：

df = h2o.import_file("hdfs://namenode/user/path/to/my.csv")
df = h2o.import_file("s3://<AWS_ACCESS_KEY>:<AWS_SECRET_KEY>@mybucket/m

会员秒杀 ¥9.9 重磅福利

超级会员免费看