sparkmlib是spark用于机器学习开发的包,实现了在分布式的大数据集群上做机器学习的功能,是目前对分布式支持较好的机器学习框架,除此之外支持分布式的机器学习框架还有tensorflow和deeplearning4j,但sparkmllib天生和hadoop无缝结合,不过sparkmllib的短板是无法支持深度学习,而tensorflow和deeplearning是支持深度学习的。
好了废话不多说,直接干
sparkmllib的开发环境建议搭建在ubantu,或者centos上,不要windows
不要windows!!!,不要windows!!!,不信你可以试试,死了别怪我没提醒。
1,安装centos和ubantud开发环境,可以是真机,也可以是虚拟机
2,安装jdk,建议安装jdk8且版本与IDEA的版本对应
3去IDEA官网下载linux版本的tar包,百度centos或者ubantu安装IDEA这个简单
4下载scala,配置环境变量,忘了百度
然后重点的坑
1pom文件建好后,没有jdk和scala
第一步,点击file,找到project structure设置全局变量和全局包
第二步看图
在settings找到plugins看看IDEA是否已经集成了scala
右击工程名,找到AddFrameworkSupport