将数据导入 H2O 及数据操作指南
在使用 H2O 机器学习算法时,数据必须存于 H2O 集群中,客户端仅持有指向 H2O 数据框的句柄(指针)。这种方式虽有时会让人困扰,但能处理集群中任何单台机器都无法容纳的大数据集。H2O 提供了多种导入数据的方法,下面将详细介绍。
加载 CSV 文件
之前的示例中,鸢尾花数据存于远程 Web 服务器的 CSV 文件中。这种方式很实用,无论使用本地机器还是云端远程集群都适用。数据文件可以来自 S3(亚马逊云文件存储)、HDFS(Hadoop 集群的文件系统),也可以是本地磁盘文件。
当客户端和 H2O 集群在同一台机器上时,相对文件路径通常可行。若相对路径导入失败,尝试使用完整路径是个不错的排查步骤。在线代码一般使用相对路径,假设“code”和“data sets”是同级目录。可在代码目录中启动 Jupyter、IPython、RStudio 或 R 会话,或编辑脚本使用完整路径。
以下是 Python 示例,R API 与之类似,只是将 h2o.import_file 替换为 h2o.importFile 。也可通过基于浏览器的 Flow 界面加载数据。
可能的上传路径示例如下:
df = h2o.import_file("hdfs://namenode/user/path/to/my.csv")
df = h2o.import_file("s3://<AWS_ACCESS_KEY>:<AWS_SECRET_KEY>@mybucket/m
超级会员免费看
订阅专栏 解锁全文
320

被折叠的 条评论
为什么被折叠?



