【spark】spark2.1.1集群搭建

最新推荐文章于 2022-09-16 22:16:59 发布

原创

最新推荐文章于 2022-09-16 22:16:59 发布 · 587 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #集群

本文介绍了如何搭建Spark 2.1.1集群，包括在3台虚拟机上的基础网络配置、JDK安装、Master和Worker节点设置，以及环境变量配置。详细步骤包括在Master节点解压Spark，配置slaves文件，修改worker的spark-env.sh，以及可选的环境变量配置。监控页面可通过Spark的REST URL获取集群信息。

安装版本：spark-2.1.1-bin-hadoop2.7.tgz

准备操作：创建3台虚拟机，构建基础网络、免密钥、时间同步、HOST配置。并且安装jdk：1.8

Master：node111

Worker：node112 、node113

一、解压

tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz

二、修改安装目录下/conf/下的配置文件

以下操作在node111上完成

1）slaves配置文件

cp slaves.template  slaves

进入slaves，默认为localhost，这个是伪集群。

修改成worker的host

vi slaves
删掉localhost
追加
node112
node113

2）spark-env.sh

改名

mv spark-env.sh.template spark-env.sh

修改

vi spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_131
export SPARK_MASTER_HOST=node111
export SPARK_MASTER_PORT=7077
expo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IT猫咪酱

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

图文+代码讲解spark-2.1.0集群搭建

RiverCode的博客

04-26

2323

图文+代码讲解spark-2.1.0集群搭建

搭建Spark On YARN集群

weixin_55988146的博客

05-23

473

一、搭建Spark On YARN集群搭建Spark Standalone集群（二）修改Spark环境配置文件存盘退出后，执行命令：source spark-env.sh，让配置生效三、提交Spark应用到集群运行（一）启动HDFS和YARN 执行命令：start-dfs.sh 执行命令：start-yarn.sh （二）运行Spark应用程序查看Spark应用程序$SPARK_HOME/examples/jars/spark-examples_2.11-.

参与评论您还未登录，请先登录后发表或查看评论

Linux安装Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)

热门推荐

pucao_cug的专栏

05-16

2万+

Linux安装Spark(CentOS7+Spark2.1.1+Hadoop2.8.0)-v1.0.0版本号：CentOS7 Hadoop2.8.0 Spark2.1.1 Scala2.12.2 JDK1.8

spark2.1.0集群环境搭建

rainsunneau的专栏

09-09

354

下载spark2.1.0 下载源码编译或者直接下载对应版本的安装包，此处下载源码编译后发布包为：准备三台Linux服务器此处vmware虚拟三台机器，ip如下： hadoop1:192.168.91.128 //master节点、slave节点 hadoop2:192.168.91.129 //slave...

Spark 集群搭建（完整）

beishanyingluo的博客

06-03

1万+

1. Spark 集群结构名词解释 Driver 该进程调用 Spark 程序的 main 方法, 并且启动 SparkContext Cluster Manager 该进程负责和外部集群工具打交道, 申请或释放集群资源 Worker 该进程是一个守护进程, 负责启动和管理 Executor Executor 该进程是一个JVM虚拟机, 负责运行 Spark Task 运行一个 Spark 程序大致经历如下几个步骤启动 Drive, 创建 SparkContext Client

Spark2.1.1<Spark架构综述>

Gpwner的博客

06-30

657

内容来自书籍《Spark技术内幕：深入解析Spark内核架构设计与原理》spark架构如下图所示： Driver是用户编写的数据处理逻辑，这个逻辑中包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群主要的交互接口，它会和Cluster Manager交互，包括向它申请计算资源等。Cluster Manager负责集群的资源管理和调度，现在支持Standalo

spark-2.1.1-bin-hadoop2.7.tar.gz

11-02

总的来说，"spark-2.1.1-bin-hadoop2.7.tar.gz"提供了在Hadoop 2.7环境中运行Spark所需要的所有组件和配置，使得用户能够快速地搭建起一个大数据处理平台，进行高效的数据分析和处理工作。无论是数据科学家、开发者...

spark-2.1.1.tgz

04-28

Spark是Apache软件基金会下的一个开源大数据处理框架，以其高效、灵活和易用性著称。Spark 2.1.1是Spark的一个重要...通过这个tgz安装包，你可以轻松地在本地或集群环境中搭建Spark，从而利用其高效的数据处理能力。

Spark基础学习笔记06：搭建Spark On YARN集群

lwmzl00的博客

06-17

1332

零、本讲学习目标学会搭建Spark On YARN模式的集群能够将Spark应用程序提交到集群运行一、Spark On YARN架构 Spark On YARN模式遵循YARN的官方规范，YARN只负责资源的管理和调度，运行哪种应用程序由用户自己实现，因此可能在YARN上同时运行MapReduce程序和Spark程序，YARN很好地对每一个程序实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中，共享集群存储资源与计算资源。Spark On YARN模式与Standalone模

安装spark2.1.1

m0_55834564的博客

09-16

1558

spark-2.1.1-bin-hadoop2.7.tgz，官网下载。注意：HDFS上的目录需要提前存在。

spark-2.1.1-bin-hadoop2.7.tgz.7z

04-28

基于hadoop2.7.2，scala2.11的sparklinux软件包，解压到指定目录后即可使用，实测可行

spark2.1.1的源码包

06-17

spark的底层源码，版本2.1.1,可以解压后直接使用idea打开，特别注意：里面包含大量的maven依赖，初始加载时，时间较长。

Spark2.1下载包

04-13

spark大数据学习根本，SparkCore,SparkSQL,Spark2.1hadoop2.6压缩包，尽快下载

spark-2.2.1-bin-hadoop2.7.tgz

12-13

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark-2.1.1概述

chennaihuan0842的博客

05-01

199

Spark 概述 Apache Spark是一个快速的、通用的集群计算系统。它提供了基于Java、Scala、Python和R语言的高级API，和一个支持通常的任务执行图的最佳化引擎。它也提供了一个丰富的较高层次的工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学...

spark 2.1.1安装（hadoop 2.6.0）

lovebomei的博客

09-13

1677

　spark分布式搭建方式大致分为三种：standalone、yarn、mesos。三种分类的区别这里就不一一介绍了，不明白可自行了解。standalone是官方提供的一种集群方式，企业一般不使用。yarn集群方式在企业中应用是比较广泛的，这里也是介绍yarn的集群安装方式。mesos安装适合于超大型集群。...

Spark 2.1.1 快速开始

越努力越幸运的博客

03-05

369

官方文档地址 Spark 2.1.1 快速开始本教程提供了使用Spark的快速介绍。我们将首先通过Spark的交互式Shell（使用Python或Scala）介绍API，然后说明如何使用Java，Scala和Python编写应用程序。请参阅编程指南以获取更完整的参考。要遵循本指南，请先从Spark网站下载Spark的打包版本。由于我们不会使用HDFS，因此您可以下载适用于任何Hadoop版本的...

Spark2.1.1<性能调优Spark运行时jar从yarn端访问>

Gpwner的博客

06-19

3695

1.为什么要让运行时Jar可以从yarn端访问spark2以后，原有lib目录下的大JAR包被分散成多个小JAR包，原来的spark-assembly-*.jar已经不存在每一次我们运行的时候，如果没有指定 spark.yarn.archive or spark.yarn.jars Spark将在安装路径下的Jar目录，将其所有的Jar包打包然后将其上传到分布式缓存（官网上的原话是：To ma

Spark2.1.1<standalone模式下的FileNotFoundException>

Gpwner的博客

06-10

628

2017年05月02日spark发布了稳定版2.1.1，据说是2.0+版本的spark替代了之前的JVM然后自己实现了一套JVM，说是更加节省内存了，于是满心欢喜的下载了安装完成之后跑了Wordcount例子，代码是： val lines=sc.textFile(“file:///root/file.txt”) lines.flatMap(.split(” “)).map((, 1)).r

Spark完全分布式集群搭建