在多台阿里云服务器上进行Spark部署及wordcount实验

最新推荐文章于 2025-04-27 02:12:31 发布

原创

最新推荐文章于 2025-04-27 02:12:31 发布 · 732 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#阿里云 #Spark #Wordcount

本文详述了如何在阿里云环境中安装Scala和Spark，配置环境，搭建Spark集群，以及执行Wordcount实验的过程。从下载安装包到启动集群，再到解决版本冲突问题，每个步骤都有清晰说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、安装Scala
1.到官网下载Scala安装压缩包，本次试验下载的为2.12.8版本。
2.h1用户下新建Scala文件夹，并将下载好的压缩包解压缩到Scala文件夹中。
3.配置 /etc/profile文件
在这里插入图片描述
4.source /etc/profile使环境变量配置生效。
二、安装Spark
1.到官网下载Spark安装压缩包，本次试验下载的为2.4.0版本。
2.在h1用户下新建Spark文件夹，并将下载好的压缩包解压到Spark文件夹中。
3.进入 /con文件夹中对Spark进行配置：
4.配置spark-env.sh文件：

export SCALA_HOME=/home/h1/Scala/scala-2.12.8
export JAVA_HOME=/usr/java/jdk1.8.0_191
export SPARK_WORKER_MEMORY=1g
export SPARK_MASTER_IP=master
export MASTER=spark://master:7077

5.修改conf/slaves文件
在slaves文件中添加slave1
6.使用scp命令将master上的scala及spark文件拷到slave1机器上，并修改环境变量使其生效。
三、启动集群
1.start-all.sh启动hadoop集群。
2.然后切到spark安装目录下的sbin文件夹中使用./start-all.sh启动spark。
3.使用jps可以查看到相应进程

四、WordCount实验
1.安装sbt

echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list
sudo a

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Clearlove灬Star

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark on Docker：容器化大数据开发环境搭建指南

AI天才研究院

05-08

1151

随着大数据处理需求的爆发式增长，Apache Spark已成为分布式计算领域的事实标准。环境配置复杂性：Spark依赖Java、Scala运行时及Hadoop生态组件，版本兼容性问题频发环境一致性难题：开发、测试、生产环境的配置差异导致"在我机器上能跑"的经典问题资源隔离不足：多用户共享集群时易出现资源抢占和性能抖动分钟级环境初始化，无需手动配置依赖开发/测试环境完全镜像化，一键迁移资源细粒度隔离，支持多版本共存Docker基础架构与核心概念。

Spark入门指南：大数据处理的第一个Hello World程序

最新发布

AI天才研究院

05-10

1068

随着数据量呈指数级增长，传统单机数据处理技术已无法满足需求。Apache Spark作为当前最主流的大数据处理框架，凭借其“快如闪电”的计算速度（基于内存计算）和“简单易用”的API设计，成为企业级大数据平台的核心工具。本文的目标是通过一个经典的“Hello World”程序（即WordCount词频统计），引导读者完成从环境搭建到程序运行的全流程，并深入理解Spark的核心机制。Spark的核心概念与架构分布式计算的基础逻辑PySpark环境搭建与配置。

参与评论您还未登录，请先登录后发表或查看评论

4台服务器集群搭建_阿里云服务器搭建spark集群和HDFS

weixin_39872334的博客

11-27

732

在阿里云服务器，基于docker手动配置spark集群、HDFS配置spark集群的方式当前最简单的方式是采用docker-compose，但这里采用最麻烦的手动配置，目的只是为了熟悉配置过程在阿里云上开启了三个docker，虚拟三个节点；节点间通过ssh免密通信；三个节点一起组成HDFS和spark集群1、制作自定义centos镜像1.1 原始镜像下载首先docker拉取一个centos7（注...

使用阿里云服务器通过docker搭建spark集群

qq_51287641的博客

07-07

979

参考文章：https://blog.youkuaiyun.com/qq_38234785/article/details/104168467 我采用的是阿里云服务器的centos，安装docker后，拉取Ubuntu镜像，配置好所需环境后commit为一个新的镜像ubuntu:spark，之后再docker run 三个ubuntu:saprk,进行搭建。基本步骤都是按照参考文章来的，这里主要记录一下遇到的一些问题及解决方法。问题及解决方法问题一：压缩包下载问题二：端口问题三：参考文章中有一些小错误12问题四：h

安装配置Hadoop2.7.5+Spark2.2.1伪分布式环境

weixin_34212762的博客

12-23

196

安装准备： 1.安装配置java1.8.0_141环境 2.增加master节点地址映射 vim /etc/profile 追加如下内容: 127.0.0.1 master 127.0.0.1 iZuf6hxhy307mpxxtvmtb3Z iZuf6hxhy307mpxxtvmtb3Z 是我的阿里云服务器的主机名，防止出现异常：SHUTDOWN_MSG: Shutting...

云服务器下Spark安装配置

No_Game_No_Life_的博客

03-27

3920

文章目录Spark安装配置安装配置java安装配置hadoop安装配置scala安装配置spark验证是否成功 Spark安装配置安装配置java Spark 本身是用Scala 写的，运行在Java 虚拟机（JVM）上。要在你的电脑或集群上运行Spark，你要做的准备工作只是安装Java 6 或者更新的版本。安装配置hadoop 其次需要安装Hadoop，因为Spark需要HDFS（非必要）...

spark搭建部署

weixin_30659829的博客

03-06

242

基础环境准备安装JDK1.8+,并设置环境变量搭建zookeeper集群搭建Hadoop集群 Spark local模式上传编译完成的spark安装程序到服务器上，并解压到指定目录 [root@hadoop01 soft]# tar zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz -C /usr/local/ [root@h...

Spark分布式内存计算框架-01 Spark入门全指南：架构、集群部署与开发实战

yangwei2048的博客

07-05

750

Spark是由加州大学伯克利分校AMP实验室开发的开源内存计算框架，具有快速、通用、易用和兼容性强四大特性。其核心模块Spark Core支持弹性分布式数据集（RDD），并提供了Spark SQL、Spark Streaming、MLlib和GraphX等组件，分别支持结构化数据处理、流计算、机器学习和图计算。Spark可在YARN、Mesos和Standalone等多种集群资源管理器上运行，计算速度比Hadoop MapReduce快100倍，主要得益于内存计算和多线程机制。Spark生态广泛应用于大数据

云原生时代下的大数据存算分离最佳实践

AI天才研究院

04-27

493

随着企业数据量呈指数级增长（IDC预测2025年全球数据量将达175ZB），传统大数据架构（如Hadoop HDFS+YARN）的存算一体模式（计算与存储绑定在同一集群）暴露出资源利用率低、扩缩容僵化、成本高等问题。本文聚焦云原生技术栈（容器化、微服务、Serverless）与大数据存算分离的融合，覆盖技术原理、架构设计、实战落地及未来趋势，帮助技术团队掌握云原生存算分离的最佳实践。全文分为十大模块：背景介绍→核心概念→算法原理→数学模型→实战案例→应用场景→工具推荐→趋势挑战→常见问题→参考资料。

阿里云搭建大数据平台（5）：scala和spark安装和配置

小蚯蚓的博客

11-02

1116

一、scala 1.下载scala-2.11.8.tgz tar -zxvf /opt/softwares/scala-2.11.8.tgz -C ./ 2.修改/etc/profile sudo vi /etc/profile 添加： export SCALA_HOME=/opt/modules/scala-2.11.8 export PATH=$SCALA_HOME/bin:...

阿里腾讯云 hadoop+spark集群搭建（1）

karwik的博客

10-28

1059

阿里腾讯云 hadoop+spark集群搭建（1） linux版本： centos7 hadoop版本： 3.1.1 手上有三台学生机，完全没动过的：一台是阿里云服务器，两台是腾讯云。用阿里云做namenode，腾讯云做datanode。目标是搭好hdfs和yarn，后面搭spark和hive。更新和下载软件包。安装jdk 版本为1.8.0 $ sudo yum -y ...

阿里云1G服务器玩转Spark——Swap与Memory

今天很快乐呀

01-18

854

博主前一段时间买了1G的阿里云服务器，然后各种折腾下，Hadoop相关生态圈基本给搭建完毕，但用到Spark时候却遇到了重大问题，进程启动一切正常，但进入spark shell客户端时候一直报OOM，到这怎么办？难道升级阿里云服务器的内存，但看了看价格，还是算了。。。办法还是人想出来的，终于经过一番艰难的寻找，终于找到了让我给找到了，下面就是今天准备给大家介绍的主人公： Swap与Memor...

Aliyun Spark 部署工具快速上手指南

gitblog_00080的博客

08-07

326

Aliyun Spark 部署工具快速上手指南 1. 项目目录结构及介绍 1.1 主要目录在 aliyun-spark-deploy-tool 的根目录下，主要包含以下几个关键部分： doc: 这个目录包含了项目的文档材料，如 manual.md 文件，用于详细介绍工具的使用方法。 src: 代码源文件存放的地方，通常包括不同语言（如 Scala 或 Python）的实现。 scri...

【Spark生态】--Spark环境搭建

weixin_52854743的博客

06-27

1905

Spark环境安装部署，Local模式和PySpark库的安装

spark部署,standalone,ha,配置历史服务器

a904364908的博客

01-05

805

spark集群安装之前需要满足如下条件: 集群主机名和hosts文件映射一一对应集群ssh免密登录配置集群每个节点防火墙关闭 JDK正确安装 Scala正确安装 Hadoop集群安装，因为Spark存储层要用到HDFS，所以应该至少保证HDFS服务的正常运行集群环境:3节点,node01,node02,node03. standalone模式下载,解压spark,我用的是spark-2...

Centos7搭建Hadoop集群（单点）笔记

fake_hydra的博客

10-20

350

环境准备依然沿用之前Centos7搭建zookeeper集群的机器，基本配置如下，关闭防火墙，selinux，修改hostname，配置免密互信配置hosts文件 vim /etc/hosts 10.15.5.240 zk-master 10.15.5.241 zk-node1 10.15.5.242 zk-node2 使其可以通过hostname 通信（三台都需要配置）配置ssh 免密在三台主机都执行 ssh-keygen -t rsa ssh-copy-id zk-master ssh-

Spark2.2.0集群搭建部署之【软件准备篇】

斌小哥的博客

08-26

269

本文主要展示如何在虚拟机上搭建部署Spark2.2.0的详细步骤，包括环境安装、无密登录、Hadoop集群，Spark集群。需要准备的软件为： VMware-WorkStation CentOS-7-x86_64-DVD-1708.iso jdk-1.8.0-openjdk scala-2.11.11.tar.gz hadoop-2.7.7.tar.gz spark-2.2.0-bin-...

阿里云实现Hadoop+Spark集群

JasonWang的博客

10-15

3530

前两篇我已经介绍了如何在服务器上搭建Hadoop环境已经Hadoop集群，接下来我将介绍一下如何在Hadoop上搭建Spark集群。（如果你还没看过我前两篇blog，那么这篇你也可以看，不过还是建议先阅读一下前两篇bolg：手把手教你如何使用阿里云搭建Hadoop环境，阿里云搭建Hadoop集群）。准本工作还是在之前的master节点和worker节点中进行搭建。第一步下载Spark并解压

搭建Spark服务器环境

huashetianzu的专栏

10-21

1237

一、spark服务器环境： 1.配置java环境； 2.下载spark包和对应版本的hadoop包； 3.进入spark安装目录，在conf目录下spark-env.sh文件的最后加入环境变量： LD_LIBRARY_PATH=$HADOOP_HOME/lib/native 4.执行sbin/start-master.sh和sbin/start-slave.sh spark://hostn...

Scala与Java在Spark上的WordCount实现

本文主要介绍了如何使用Scala和Java在Spark框架下实现WordCount程序，以及在Red Hat Enterprise Linux Server 6.4上配置相应的开发环境。文中提到了使用的软件版本，包括Hadoop 2.4.1、JDK 1.7.0_60、Spark 1.1.0和...