- 博客(5)
- 收藏
- 关注
原创 Spark ML 分布式机器学习(二):pipeline
一、pipeline主要概念pipeline在结构上把原有的机器学习各个流程整合成一个流水线式的工作流程。一个完整的pipeline主要有:DataFrame、Transformer、Estimator、pipeline以及parameter。一个pipeline在结果是会包含一个或多个步骤,每个步骤都会完成相应的任务,如数据的处理转化、模型训练,参数设置以及模型预测等,而最主要的两个步骤为Tran
2017-04-15 11:39:16
1449
原创 Spark ML 分布式机器学习(一):iPython+spark安装与环境变量配置
本人是DM领域里菜鸟一枚,原热衷于sklearn进行机器学习,经过阿里巴巴的电话面试以及网上查询看到许多公司都是用分布式spark进行数据挖掘及机器学习,经过了解和一些视频介绍决定把数据挖掘及机器学习转移到spark上,一直喜欢Python的我,spark也有相应的API--pyspark shell。工欲善其事必先利其器,经过网上博客等文章的查询,我在这篇文章里主要写了Windows7上的VMware Workst
2017-04-09 22:28:12
2814
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人