最近学习spark,首先就要搭建它的运行环境了。自己看了无数教程,均无可以无错运行的。最后搭建成功真是整合了好多人的教程才成功的。整理一下,防止以后踩坑。
Windows环境下搭建无数踩坑,直接放弃。本文在Ubuntu16.04虚拟机上进行搭建。
贴一篇比较有价值的spark环境搭建教程。http://blog.youkuaiyun.com/u010171031/article/details/51849562
大家按照此教程安装jdk,scala,spark,即可。问题出在配置完以后,命令行输入pyspark报错。
我怎么解决的呢?在另一篇文章了,发现是spark有些配置文件没有配置。分别是log4j.properties,spark-env.sh,slave.sh,三个文件。
进入到spark的配置目录/usr/lib/spark/spark-1.5.1-bin-hadoop2.6/conf进行配置:
进入配置目录
cd /usr/lib/spark/spark-1.5.1-bin-hadoop2.6/conf
*# 基于模板创建日志配置文件*
cp log4j.properties.template log4j.properties
**# 使用vim或gedit编辑文件log4j.properties
*# 修改log4j.rootCategory为WARN, console,可避免测试中输出太多信息***
log4j.rootCategory=WARN, console
*# 基于模板创建配置文件*
sudo cp spark-env.sh.template spark-env.sh
**# 使用vim或gedit编辑文件spark-env.sh
*# 添加以下内容设置spark的环境变量(按照你自己的路径来)***
export SPARK_HOME=/usr/lib/spark/spark-1.5.1-bin-hadoop2.6
export SCALA_HOME=/usr/lib/scala/scala-2.11.7
*# 基于模板创建配置文件*
sudo cp slave.sh.template slave.sh
**# 使用vim或gedit编辑文件spark-env.sh
*# 添加你的主机名(按照你自己来,用户名@主机名,@后面的是主机名)***
spark
这样就可以完美运行了。包括集群环境。