前一篇博客总结了如何在Windows 7上利用Vmware Workstation搭建Ubuntu kylin 14.04的hadoop集群。Hadoop集群搭建成功,距离Spark集群就只有一步之遥了。因为Spark框架本身就可以建立在Hadoop的hdfs基础之上。
搭建Spark集群,首先要安装Scala,因为Spark本身就是使用Scala语言开发的。不同的Spark 包,使用的Scala语言版本可能有所差异。而同一个Spark版本,可能因为打包时基于的hadoop版本不同,而又有不同的版本,例如在Spark的Apache官网上,当选择Spark 1.6.3版本时,打包的Hadoop版本有2.3,2.4和2.6三个:
选择最新的Spark2.2版本,使用的Hadoop版本有2.7及以后和2.6两种:
所以前面搭建hadoop集群时,选择的hadoop版本是2.7.4,而不是其它更新的版本,就是为了与这个Spark的pack