Spark安装部署(Yarn Local Standalone)


前言

实验环境:
Linux Ubuntu 16.04
1) Java 运行环境部署完成
2) Hadoop单机模式部署完成

一、Yarn模式安装

  1. 打开命令控制台
  2. 解压安装包到apps目录下sudo tar -zxvf /data/hadoop/spark-2.1.3-bin-hadoop2.7.tgz -C /apps/(解压后,在/apps目录下产生spark-2.1.3-bin-hadoop2.7文件夹)
  3. 更改文件名sudo mv /apps/spark-2.1.3-bin-hadoop2.7/ /apps/spark
  4. 更改所属用户和用户组sudo chown -R dolphin:dolphin /apps/spark/
  5. 调出编辑器sudo leafpad ~/.bashrc
  6. 设置环境变量export SPARK_HOME=/apps/spark export PATH=$SPARK_HOME/bin:$PATH
  7. 使环境变量生效source ~/.bashrc
  8. 修改spark配置文件名,使之生效mv /apps/spark/conf/spark-env.sh.template /apps/spark/conf/spark-env.sh
  9. 打开spark-env.sh文件sudo leafpad /apps/spark/conf/spark-env.sh
  10. 在最后加入export JAVA_HOME=/apps/java export SCALA_HOME=/apps/scala export SPARK_MASTER_IP=localhost export HADOOP_HOME=/apps/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. 使slaves配置文件生效mv /apps/spark/conf/slaves.template /apps/spark/conf/slaves
  12. 启动Hadoop/apps/hadoop/sbin/start-all.sh
    在这里插入图片描述
  13. 启动Spark/apps/spark/sbin/start-all.sh
    在这里插入图片描述
  14. 使用jps指令查看spark进程情况
    在这里插入图片描述

二、Local模式安装

  1. 打开命令控制台
  2. 解压安装包到apps目录下sudo tar -zxvf /data/hadoop/spark-2.1.3-bin-hadoop2.7.tgz -C /apps/(解压后,在/apps目录下产生spark-2.1.3-bin-hadoop2.7文件夹)
  3. 更改文件名sudo mv /apps/spark-2.1.3-bin-hadoop2.7/ /apps/spark
  4. 更改所属用户和用户组sudo chown -R dolphin:dolphin /apps/spark/
  5. 调出编辑器sudo leafpad ~/.bashrc
  6. 设置环境变量export SPARK_HOME=/apps/spark export PATH=$SPARK_HOME/bin:$PATH
  7. 使环境变量生效source ~/.bashrc
  8. 启动Spark shellspark-shell --master local
    在这里插入图片描述
  9. 重新打开一个控制台,运行案例计算PI值run-example SparkPi 10 | grep 'Pi is roughly',执行成功,Local版本安装成功。
    在这里插入图片描述
    在这里插入图片描述

三、Standalone模式安装

  1. 打开命令控制台
  2. 解压安装包到apps目录下sudo tar -zxvf /data/hadoop/spark-2.1.3-bin-hadoop2.7.tgz -C /apps/(解压后,在/apps目录下产生spark-2.1.3-bin-hadoop2.7文件夹)
  3. 更改文件名sudo mv /apps/spark-2.1.3-bin-hadoop2.7/ /apps/spark
  4. 更改所属用户和用户组sudo chown -R dolphin:dolphin /apps/spark/
  5. 调出编辑器sudo leafpad ~/.bashrc
  6. 设置环境变量export SPARK_HOME=/apps/spark export PATH=$SPARK_HOME/bin:$PATH
  7. 使环境变量生效source ~/.bashrc
  8. 进入到config目录下cd /apps/spark/conf
  9. 修改spark配置文件名,使之生效mv spark-env.sh.template spark-env.sh
  10. 将slaves.template重命名为slavesmv slaves.template slaves
  11. 打开spark-env.sh文件sudo leafpad /apps/spark/conf/spark-env.sh
  12. 在最后加入export JAVA_HOME=/apps/java export SPARK_MASTER_IP=tools<br> export SPARK_MASTER_PORT=7077
    保存退出
  13. 进入sbin目录cd /apps/spark/sbin,启动脚本./start-all.sh
  14. 使用jps指令查看spark进程情况
  15. 查看本机ipifconfig
  16. 输入指令spark-shell --master spark://x.x.x.x:7077,x.x.x.x表示本机ip
  17. 显示“scala>”表示Standalone模式安装成功。

小结

三种安装方式大同小异,根据具体需要进行选择。下面说一些知识点,供大家参考。

  1. 高性能,大规模并行系统可用于促进数据准备和建模、部署、业务理解;
  2. Oozie在Hadoop架构中的主要目的是支持执行一系列行动组成的工作流程;
  3. 协调器作业使用了以下文件
    在这里插入图片描述
  4. 时间、数据、对API应用程序的调用、Oozie CLI;
  5. SparkR定义的聚合函数:sumDistinct,sum,Min,count;
  6. Spark支持Standalone,On Mesos, On Yarn三种不同类型的部署方式;
  7. Spark采用RDD后能实现高效计算的原因主要是高效的容错性;中间结果持久化到内存,数据在内存中的多个;存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化;
  8. Spark运行架构的特点:
  • 每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留
  • Task采用了数据本地性和推测执行等优化机制
  • Executor进程以多线程的方式运行Task
  • Spark运行过程与资源管理器无关,只要能够获取Executor进程并保持通信即可
  1. Spark特点:运行速度快,容易使用,通用性;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值