Spark ML Pipeline机器学习流程回归分析
概述
使用“Bike Sharing”数据集,使用Spark机器学习流程(ML Pipeline)回归分析,使用决策树回归分析,在不同情况(季节、月份、时间、假日、星期、工作日、天气、温度、体感温度、湿度、风速等)来预测每个小时的租用数量,并且使用训练验证与交叉验证找出最佳模型,提高预测准确度,最后使用GBT(Gradient-Boosted Tree)梯度提升决策树,进一步提高预测准确度。
分为三个阶段:
建立机器学习流程pipeline
包含3个阶段(stages),前2个阶段是数据处理,第3个阶段是
原创
2020-06-13 09:55:06 ·
1183 阅读 ·
0 评论