【分布式编程】三——基于VirtualBox的Spark完全分布式环境

本文详细介绍了如何在VirtualBox的Ubuntu 16.04 LTS环境中,基于Hadoop搭建Spark的完全分布式集群。首先确保已有Hadoop、JDK等环境,接着安装Scala和Spark,配置环境变量,特别是Spark的配置部分,包括`slaves`文件和`spark-env.sh`文件。然后启动Hadoop和Spark,通过查看进程和Web界面确认集群状态。最后,通过运行pyspark和spark-shell验证Spark配置成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

Spark的搭建依赖于Hadoop,因此本文基于之前分布式Hadoop环境,JDK、Hadoop等已安装好,

系统环境

  • 虚拟机:VirtualBox
  • Linux:Ubuntu 16.04 LTS
  • HAdoop 2.7.5
  • IDE:Intellij IDEA
  • JDK 1.8.0_151
  • Scala-2.12.4
  • Spark-2.2.1

操作步骤

安装Scala

  1. 下载Scala-2.12.4

  2. 解压到当前目录

    tar -zxvf scala-2.12.4.tgz
  3. 将解压后的文件夹移动到/usr

    sudo mv scala-2.12.4/ /usr/
  4. 配置环境变量

    sudo vim /etc/profile

    添加如下代码,路径根据情况自己修改

    export SCALA_HOME=/usr/scala-2.12.4
    export PATH=$SCALA_HOME/bin:$PATH
  5. 更新环境变量配置

    source /etc/profile
  6. 验证是否安装成功

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值