43、使用 H2O 在 Spark 上进行深度学习及 Apache Spark 安装指南

使用 H2O 在 Spark 上进行深度学习及 Apache Spark 安装指南

1. 使用 H2O 深度学习进行分类

深度学习不仅可用于回归,还能用于分类。这里将使用之前用过的成人数据集,该数据集提取自 1994 年美国人口普查数据,包含 13 个属性,如性别、年龄、教育程度、婚姻状况、种族、国籍等,目标变量是收入,目的是预测一个人每年收入是否超过 50000 美元。数据集可在 在线仓库 找到,列描述可在 adult.names 文件 中查看。

1.1 加载和拆分数据

1.1.1 加载数据

可将数据从文件直接加载到 H2OFrame,只需提供文件路径:

val censusH2O = new H2OFrame(new java.net.URI("first-edition/ch08/adult.raw"))

该框架可通过 H2O Flow UI 以 adult_raw.hex 名称访问。H2O 会自动检测哪些列包含数字,哪些包含分类值(H2O 术语中的枚举类型),如教育程度和婚姻状况就是分类值。

1.1.2 修改列名

adult.raw 文件不包含列名,可使用 H2O API 修改列名:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值