搭建单击spark

(转发自http://blog.youkuaiyun.com/red_stone1/article/details/71330101,有所修改)


说道大数据和机器学习,就少不了Spark.本文主要介绍在Linux下搭建单机环境的Spark的步骤。

安装Java SE

1、下载JAVA SE linux版本。下载地址为:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

注意选择Linux版本,根据机器类型选择32位或者64位。

2、下载jdk-8u131-linux-x64.tar.gz后,解压到自己指定目录。

$ tar -zxvf jdk-8u131-linux-x64.tar.gz -C /usr/lib/java
 
  • 1

3、配置JAVA环境变量。

打开.bashrc文件。

$ nano ~/.bashrc
 
  • 1

在.bashrc文件末尾增加如下内容:

export JAVA_HOME=/usr/lib/java/jdk1.8.0_131 
export JRE_HOME=${JAVA_HOME}/jre 
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib 
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH 
 
  • 1
  • 2
  • 3
  • 4

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc
 
  • 1

4、检测java是否成功安装。

$ java -version
java version "1.8.0_131"
 
  • 1
  • 2

如果显示了java安装的版本,则表示已正确安装,可以进行下一步了。

安装Scala

1、下载Scala的压缩文件。下载地址为:
http://www.scala-lang.org/download/

2、下载scala-2.12.2.tgz后,解压到指定的目录:

$ tar -zxvf scala-2.12.2.tgz -C /opt/scala/
 
  • 1

3、配置scala环境变量。

打开.bashrc文件。

$ nano ~/.bashrc
 
  • 1

在.bashrc文件末尾增加如下内容:

export SCALA_HOME=/opt/scala/scala-2.12.2 
export PATH=${SCALA_HOME}/bin:$PATH 
 
  • 1
  • 2

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc
 
  • 1

4、检测scala是否正确安装。

$ scala -version
Scala code runner version 2.12.2 -- Copyright 2002-2017, LAMP/EPFL and Lightbend, Inc
 
  • 1
  • 2

若显示如上信息,则表示scala已安装正确。

安装Spark

1、下载Spark的压缩文件。下载地址为:
http://spark.apache.org/downloads.html

2、下载spark-2.1.1-bin-hadoop2.7.tgz后,解压到指定的目录:

$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/spark/
 
  • 1

3、配置scala环境变量。

打开.bashrc文件。

$ nano ~/.bashrc
 
  • 1

在.bashrc文件末尾增加如下内容:

export SPARK_HOME=/opt/spark/spark-2.1.1-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH 
 
  • 1
  • 2

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc
 
  • 1

4、检测spark是否正确安装。

$ spark-shell -usejavacp
 
  • 1

如果出现如下界面,则表示spark已正确安装:
这里写图片描述

安装sbt

1、下载Spark的压缩文件。下载地址为:
http://www.scala-sbt.org/download.html

2、下载sbt-0.13.15.tgz后,解压到指定的目录:

$ tar -zxvf sbt-0.13.15.tgz -C /opt/scala/sbt/
 
  • 1

3、配置sbt环境变量。

打开.bashrc文件。

$ nano ~/.bashrc
 
  • 1

在.bashrc文件末尾增加如下内容:

export SBT_HOME=/opt/scala/sbt
export PATH=${SBT_HOME}/bin:$PATH 
 
  • 1
  • 2

保存后退出,运行如下命令,使修改环境变量即可生效:

$ source ~/.bashrc
 
  • 1

4、建立启动sbt的脚本。

$ mkdir /opt/scala/sbt/ 
$ cd /opt/scala/sbt/ 
$ touch sbt  
 
  • 1
  • 2
  • 3

脚本内容如下,注意sbt-launch.jar的路径

SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M" 
java $SBT_OPTS -jar /opt/scala/sbt/bin/sbt-launch.jar "$@" 
 
  • 1
  • 2

修改sbt文件的权限

$ chmod u+x sbt 
 
  • 1

5、检测sbt是否正确安装。

$ sbt sbtVersion
[info] 1.0.2
 
  • 1
  • 2

第一次执行的时候会下载很多东西,不用管它,后来就好了。
如果出现sbt的版本信息就表示安装成功。

至此,Linux下Spark单机环境已经成功搭建完毕!

### 单机环境下安装和配置Spark集群 #### 准备工作 在开始之前,确保已经准备好必要的软件环境。对于单机版Spark集群来说,可以从官方网站下载适合版本的Spark压缩包[^1]。 #### 解压并设置环境变量 解压所下载的`spark-2.0.0-bin-hadoop2.7.gz`文件至指定位置,并将其路径加入系统的环境变量中以便于后续操作。这一步骤能够简化命令行工具的调用过程。 ```bash tar -xzf spark-2.0.0-bin-hadoop2.7.tgz export SPARK_HOME=/path/to/spark-directory export PATH=$SPARK_HOME/bin:$PATH ``` #### 配置Spark环境 编辑`$SPARK_HOME/conf/spark-env.sh`文件(如果不存在则创建),添加Java家目录以及任何其他所需的环境变量定义。此步骤有助于定制化Spark的行为以适应特定硬件条件或网络拓扑结构。 #### 启动本地模式下的Master节点和服务 通过执行如下脚本来启动master服务,在单机环境中模拟完整的分布式架构: ```bash start-master.sh ``` 此时可以通过浏览器访问http://localhost:8080来查看集群的状态信息与监控数据。 #### 运行Worker实例连接到Master 在同一台机器上开启worker进程并与前面提到过的master建立联系: ```bash start-worker.sh <MASTER_URL> ``` 这里需要注意替换掉<MASTER_URL>部分为实际master地址,比如`spark://your-machine-ip:7077`。 以上就是在单一计算机内构建简易Spark集群的方法概述;尽管这不是真正意义上的分布系统部署方式,但对于初步了解其工作机制和个人测试而言已足够充分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值