数据科学与H2O机器学习通用参数详解
数据集合概述
在数据处理实践中,我们会遇到各式各样的数据集合。部分数据集合在获取时就已经具备良好的结构,而另一些则需要我们投入更多精力去处理,这也是现实世界数据科学的常态。
有三个不同的数据集合值得关注。其中一个数据集合中有50%的数据来自美国高中生,相关字段包括 “Div”, “HS1”, “AS1”, “HST1”, “AST1”, “HF1”, “AF1”, “HC1”, “AC1”, “HY1”, “AY1”, “HR1”, “AR1”, “res1H”, “res1A”, “res5H”, “res5A”, “res20H”, “res20A” 等。目标变量 y 可以有不同的选择,如 “FTR”(三值多项分布)、”ScoreDraw”(不平衡二项分布),这里我们选择 “HomeWin”(平衡二项分布)。
这些数据的来源也十分广泛,其原始数据从GitHub上的Football Data仓库下载,该仓库遵循MIT许可,数据的源头包括International Soccer Server、European Football、RSSSF Archive、TBWSport和Livescore等。
不同的数据集合面临着不同的挑战:
- 建筑能源数据 :主要挑战在于数据样本数量较少,且每个预测字段是不连续的。当我们选取数据子集时,很容易出现数据不具代表性的情况。
- MNIST数据 :主要问题是手写数字的书写风格差异较大,而且784像素的行数据属于低层次特征,难以学习。虽然我们添加了113个特征,但这些
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



