【Hadoop】在Ubuntu系统下安装Spark

最新推荐文章于 2025-08-15 12:37:27 发布

转载最新推荐文章于 2025-08-15 12:37:27 发布 · 157 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/guangluwutu/p/9971853.html

文章标签：

#大数据 #java #开发工具

本文详细介绍了如何下载并安装Spark 2.4.0版本，特别强调了在已存在Hadoop环境下的无Hadoop版本安装过程。通过具体的shell命令演示了从解压到配置环境变量的每一步骤，并提供了验证安装成功的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark 版本：spark-2.4.0-bin-without-hadoop.tgz

下载地址：http://spark.apache.org/downloads.html

下载的时候注意一下，需要下的是最新版本的无 hadoop 版本，因为我们已经在之前装过 hadoop 了。

安装 Spark

sudo tar -zxf ~/Downloads/spark-2.4.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.4.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark

修改 Spark 的配置文件：spark-env.sh

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑文件 spark-env.sh ( vim ./conf/spark-env.sh )，在第一行添加 hadoop 配置信息：

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存退出就可以直接使用，同时我也配置了我的 Java 路径（可选）。

运行 Spark 自带的示例，验证 Spark 是否安装成功：

cd /usr/local/spark
bin/run-example SparkPi

行时会输出非常多的运行信息，输出结果不容易找到，可以通过 grep 命令进行过滤（命令中的 2>&1 可以将所有的信息都输出到 stdout 中，否则由于输出日志的性质，还是会输出到屏幕中）:

bin/run-example SparkPi 2>&1 | grep "Pi is"

可以看到 Spark 成功安装。

转载于:https://www.cnblogs.com/guangluwutu/p/9971853.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30571465

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

spark-env.sh配置——Spark学习日记

YYYYYY.的博客

12-10

1万+

大数据 Spark 不显示Worker问题配置好spark后，输入jps只有Master，没有Worker 修改spark-env.sh文件找到spark-env.sh位置 /home/hadoopadmin/spark-2.3.1-bin-hadoop2.7/conf ls 如果有 template 结尾的文件，都重命名为去掉 template 文件编辑spark-env.sh文...

ubuntu下Hadoop以及Spark的伪分布式安装：一

03-30

1170

很多初学者在安装的时候会碰到各种各样的问题，尤其各种版本的搭配问题。所以特意做一个初步安装的引导，希望大家都能一次调试出来。经过测试，jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1，这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完美的最后版本为jdk11，后面的版本也可以使用，但是java 11后面的版本去掉了javax.activation，导致无法浏览服务端的文件夹以及文件。

参与评论您还未登录，请先登录后发表或查看评论

ubuntu安装Spark

qq_37797234的博客

05-19

688

一、安装JDK8 1、解压 cd /usr/lib sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件 cd ~ #进入hadoop用户的主目录 cd Downloads #注意区分大小写字母，刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下 sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK文件解压到/usr/lib/jvm目录下 2、

ubuntu Hadoop及Spark环境搭建

雲泥有別尘亦生辉

10-05

353

关于平台选择的问题目前分布式计算框架主要是在linux系统下开发，因此选择ubuntu或者centos都没有问题。 spark发展到现在，很多方面都已经十分完善，其速度与性能等也比hadoop好不止一个数量级，因此，主要使用spark进行分布式计算框架的学习。但是hadoop中的HDFS文件系统应用广泛，spark默认也采用hadoop的HDFS文件系统，因此安装时，首先安装配置hadoop，然...

hadoop和spark的安装，详细步骤

鹿西西吧的博客

03-27

8492

1.环境配置 Hadoop安装与安装前的环境配置流程 •如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户，那么需要增加一个名为 hadoop 的用户。在下载好的ubuntu中需要创建hadoop用户，并为其设置密码以及所需权限，为后续的实验方便： sudo useradd -m hadoop -s /bin/bash sudo passwd hadoop sudo adduser hadoop sudo 在创建成功后注销现在的环境，再次进入虚拟机使用创建的hadoop用户登录开始实验。

Ubuntu16.04下Anaconda，spark，Hadoop的安装

sisteryaya的博客

04-01

5803

最近准备参加天池的比赛，会用到spark，之前在win7上折腾了一番，果断放弃了...准备直接用Linux了。VMware，Ubuntu安装的相关问题，前篇博客有写。问题1：输入python显示的是python2.7，不能切换至python3.6 1、网上下载Anaconda for Linux，64bit。 2、打开终端：sudo bashAnaconda3-4.3.1-L...

Ubuntu系统基于分布式hadoop安装spark

weixin_42141873的博客

04-20

2543

Ubuntu系统基于分布式hadoop安装spark 之前的文章中我们已经部署好了hadoop集群首先打开三个虚拟机，现在我们需要安装Scala，因为Spark是基于Scala开发的，所以需要安装Scala。在Ubuntu下安装Scala很简单，我们只需要运行 sudo apt-get install scala 就可以安装Scala了。安装完成后运行scala -version可以看到安装的Scala的版本，我现在2.11版，安装目录是在/usr/share/scala-2.11 。接下来下载Sp

ubuntu下Hadoop以及Spark的伪分布式安装：三

03-30

606

因为使用root用户运行，所以需要在./sbin目录中修改start-yarn.sh和stop-yarn.sh两个文件。如果没有NodeManager和ResourceManager，则需要修改yarn-env.sh，在文件中添加如下三行。注：上面的localhost可以改成具体的IP地址，或者0.0.0.0，就可以从任意地址访问了。如果启动yarn后，能在浏览目录中发现tmp文件夹，说明安装成功。#下面这条命令在新服务器中无法使用了，需要改成下面的新命令。此tmp是网页的逻辑地址，须使用"/"

Ubuntu从零安装 Hadoop And Spark

weixin_45573921的博客

05-09

2019

安装 linux 以Ubuntu为例选择镜像，虚拟机安装虚拟机下，直接安装镜像即可，选择好自己的配置，一定要注意路径名选好，而且和你虚拟机的名称匹配，这里我的镜像是 ubuntu-20.04.2.0-desktop-amd64.iso 安装 Hadoop 安装 Spark，并使用PySpark测试 ...

spark的Ubuntu下的安装包

12-27

spark-3.5.0-bin-hadoop3.tgz 是Apache Spark的一个特定版本，针对Hadoop 3.x版本进行了优化和构建。Apache Spark是一个强大的分布式计算系统，用于大数据处理和分析。它提供了高效的数据处理能力，支持多种编程语言...

Ubuntu下安装spark.pdf

09-29

6. 启动Spark交互式shell：在安装目录的shell目录下，使用命令`./bin/spark-shell`启动Spark的交互式shell。这是一个REPL环境，用户可以通过它来交互式地编写和执行Spark代码。在上述安装过程中，值得注意的是，...

spark学习-spark安装和启动

最新发布

2501_90968670的博客

08-15

800

本项目是一个基于Java平台的在线房产销售系统服务平台，旨在为用户提供多样化的服务，包括房地产预约、订单管理、用户权限管理等功能。平台采用分模块开发，每个模块都有明确的功能范围和用户角色定位。通过标准化的接口定义，方便前后端的数据交互，确保系统的灵活性和扩展性。

Flink Redis维表：Broadcast Join与Lookup Join对比及SQL示例

spark_dev的博客

08-12

904

本文对比了Flink中Redis维表关联的两种方案：Broadcast Join和Lookup Join。Broadcast Join适合小维表（<1GB），通过广播到所有任务实现本地关联，延迟低但内存消耗高；Lookup Join则适合大维表，通过实时查询Redis获取最新数据，内存占用低但延迟较高。文章详细分析了两者的原理、适用场景和性能差异，并提供了两种方案的SQL实现示例。最后建议根据维表大小、更新频率和资源情况选择合适方案，或采用混合模式平衡性能与资源。

MapReduce系统架构，颠覆了互联网分层架构的本质？

weixin_43209512的博客

08-14

301

摘要：MapReduce架构颠覆了传统互联网"固定CPU，移动数据"的分层架构，创新性地采用"固定数据，移动CPU"模式。这种设计针对离线业务特点（数据量大、时延容忍），让计算任务就近处理数据，大幅减少网络传输。与互联网架构（高吞吐、低时延）形成鲜明对比，体现了架构设计需因业务特点而异的核心理念。（149字）

时序数据库市场前景分析

m0_72638137的博客

08-14

837

随着物联网（IoT）、工业互联网、金融科技、智慧城市等领域的快速发展，数据呈现爆发式增长，其中时间序列数据（Time-Series Data）占据了重要地位。时序数据库正与AI/ML技术结合，支持异常检测、预测分析等高级功能，例如IoTDB的AINode支持自研时序大模型Timer，InfluxDB的Flux语言和Prometheus的PromQL扩展。未来的数据库可能不再严格区分时序、关系或图数据库，而是提供统一的数据处理能力，如IoTDB 2.0版本提供的动态+静态数据的多模态融合。

人工智能与金融：金融行业的革新

一套方法论打通全栈闭环，从 0 到 1 教你驾驭需求、设计、开发、项目、课题、论文和软著，速成全栈王者！

08-12

1221

人工智能正在重塑金融的形态，但技术终究是服务于经济发展的工具。从小微企业通过 AI 获得第一笔贷款，到普通家庭借助智能投顾实现财富增值，从跨境支付效率的革命性提升，到金融风险的精准防控，AI 正在让金融从 “精英专属” 走向 “全民共享”，从 “复杂晦涩” 走向 “简单透明”。未来的金融行业，将是 “技术的智能” 与 “金融的本质” 的完美融合：AI 解决效率、成本、风险等技术问题，金融人则坚守 “服务实体经济” 的初心。

Linux Ubuntu hadoop安装spark

12-26

在Linux Ubuntu上安装Apache Hadoop并随后安装Spark，可以分为几个步骤： 1. **更新系统**： ``` sudo apt-get update && sudo apt-get upgrade ``` 2. **安装依赖包**： - Java Development Kit (JDK)：Hadoop需要Java运行环境，你可以通过`ppa:webupd8team/java`添加Ubuntu官方仓库安装： ``` sudo add-apt-repository ppa:webupd8team/java sudo apt-get install oracle-java8-installer ``` - SSH工具：为了集群间的通信，安装SSH客户端和服务器： ``` sudo apt-get install openssh-server sudo apt-get install ssh-client ``` 3. **安装Hadoop**： - 官方推荐的是Hadoop YARN版本，从Hadoop官网下载适合Ubuntu的tarball，然后解压并配置： ``` wget https://hadoop.apache.org/releases.html cd ~/ tar -xvf hadoop-x.x.x.tar.gz cd hadoop-x.x.x sbin/hadoop namenode -format start-dfs.sh start-yarn.sh ``` - 配置文件通常位于`etc/hadoop`目录下，包括核心、名称节点和资源管理器配置。 4. **安装Spark**： - Spark的稳定版本可以从官方网站下载，选择合适的Scala版本（如Scala 2.11）的二进制包，例如： ``` wget https://www.apache.org/dist/spark/spark-x.x.x/spark-x.x.x-bin-hadoop-y.y.tgz gunzip spark-x.x.x-bin-hadoop-y.y.tgz tar xvf spark-x.x.x-bin-hadoop-y.y.tgz ``` - 将Spark添加到环境变量`PATH`中，并配置环境变量以指向Hadoop的安装位置。 5. **验证安装**： - 使用命令行工具（如`jps`检查是否有YARN守护进程和Spark应用Master等运行。 - 对于Spark Shell进行基本测试： ``` cd spark-x.x.x-bin-hadoop-y.y ./bin/spark-shell ```