Apache Zepplin 现在还是一个孵化项目,具体可以查看网站:Zepplin
环境准备
安装之前,请确认已经具有如下环境:
Java 1.7 Maven Git NPM
如果没有的话可以使用yum进行安装:
yum install -y git maven npm
其中npm是一个NodeJS包管理和分发工具,在编译Zepplin的时候需要使用npm下载安装一些工具。
代理设置
在代理环境下,需要对npm进行如下配置:
npm config set proxy http://server:port
npm config set https-proxy http://server:port
npm config set registry "http://registry.npmjs.org/"
配置的结果可在 ~/.npmr 中查看与修改
编译
首先需要从github上将代码下载下来:
git clone https://github.com/apache/incubator-zeppelin.git
无需做任何修改,直接编译:
mvn clean package -Pspark-1.4 -Dspark.version=1.4.0 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests
修改成你所需要的版本即可。
在安装过程中会遇到一些错误,如果这个模块你不需要的话,你可以将其注释掉,或者可以将缺失的jar包自行下载,然后复制到相应的maven目录中即可。
配置
将conf中的zeppelin-env.sh.template与zeppelin-site.xml.template 重命名,去掉template
在zeppelin-env.sh 中配置SPARK_HOME 和HADOOP_HOME
最好再设置一下端口,因为默认是8080,很容易冲突:
export SPARK_HOME=/opt/spark1.4
export HADOOP_HOME=/opt/hadoop2.6
export ZEPPELIN_PORT=10008
运行
./bin/zeppelin-daemon.sh start
访问8080端口即可