基于H2O与NLP的异构集成分类器应用
1. 基于H2O的异构集成分类器
1.1 模型训练与评估
使用H2O的 H2OStackedEnsembleEstimator 训练堆叠集成模型,并在测试数据上评估其性能。之后,对所有构建的GLM、RF和GBM模型在测试数据上进行评估,找出具有最大AUC分数的模型,并评估堆叠集成模型在测试数据上的AUC分数,以便与单个基础学习器进行性能比较。
1.2 交叉验证
在训练所有模型时使用交叉验证,通过 nfolds 选项设置交叉验证的折数,例如设置为5,也可设置为更高的数字,且所有模型的折数需保持一致。此外,还可指定 fold_assignment 参数,其取值包括 auto 、 random 、 modulo 和 stratified 。当设置为 Auto 时,算法自动选择(当前选择 Random );设置为 Random 时,数据将随机分割成 nfolds 个集合;设置为 Modulo 时,使用确定性方法将数据均匀分割成 nfolds 个集合,且不依赖于种子参数。使用交叉验证构建模型时,需为所有模型指定种子值或使用 fold_assignment="Modulo" 。
H2O与NLP异构集成分类应用
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



