搭建Spark分布式集群
环境:
- Host OS: OS X Yosemite 10.10.2
- VM OS: ubuntu-14.04.3-server
- Java: jre-7u7-linux-x64
- Hadoop: hadoop-2.6.1
- Spark: spark-1.5.0-bin-hadoop2.6
1. 创建VM
在Virtualbox上新建一个Ubuntu 14.04 Server VM。网络设置为Bridged Adaptor,这样每一个VM会被路由器分配一个独立IP,从而VM之间可以互相交互,宿主与VM之间也可以互相交互。
将第一个创建好的VM取名为spark1.
下面在spark1上安装所需的dependencies。
2. 安装Dependencies
安装Java
由于在墙内下载jdk特别慢,这里到一个找到的链接人工下载,然后scp到VM。
http://download.youkuaiyun.com/detail/aqtata/8599477
gzip -d jdk-8u45-linux-x64.tar.gz
tar -xf jdk-8u45-linux-x64.tar
安装Scala
wget http://downloads.typesafe.com/scala/2.11.7/scala-2.11.7.tgz
gzip -d scala-2.11.7.tgz
tar -xf scala-2.11.7.tar
mv scala-2.11.7 /usr/local/opt/scala-2.11.7
安装Hadoop
wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz<