10、数据科学与H2O机器学习通用参数详解

数据科学与H2O机器学习通用参数详解

数据集合概述

在数据处理实践中,我们会遇到各式各样的数据集合。部分数据集合在获取时就已经具备良好的结构,而另一些则需要我们投入更多精力去处理,这也是现实世界数据科学的常态。

有三个不同的数据集合值得关注。其中一个数据集合中有50%的数据来自美国高中生,相关字段包括 “Div”, “HS1”, “AS1”, “HST1”, “AST1”, “HF1”, “AF1”, “HC1”, “AC1”, “HY1”, “AY1”, “HR1”, “AR1”, “res1H”, “res1A”, “res5H”, “res5A”, “res20H”, “res20A” 等。目标变量 y 可以有不同的选择,如 “FTR”(三值多项分布)、”ScoreDraw”(不平衡二项分布),这里我们选择 “HomeWin”(平衡二项分布)。

这些数据的来源也十分广泛,其原始数据从GitHub上的Football Data仓库下载,该仓库遵循MIT许可,数据的源头包括International Soccer Server、European Football、RSSSF Archive、TBWSport和Livescore等。

不同的数据集合面临着不同的挑战:
- 建筑能源数据 :主要挑战在于数据样本数量较少,且每个预测字段是不连续的。当我们选取数据子集时,很容易出现数据不具代表性的情况。
- MNIST数据 :主要问题是手写数字的书写风格差异较大,而且784像素的行数据属于低层次特征,难以学习。虽然我们添加了113个特征,但这些

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值