在yarn上安装spark，以及遇到的问题

最新推荐文章于 2024-11-06 19:57:28 发布

原创最新推荐文章于 2024-11-06 19:57:28 发布 · 387 阅读

0 ·

CC 4.0 BY-SA版权

本文详细介绍了Spark的安装过程，包括解压包至指定目录、配置slaves文件、修改spark-env.sh以适配Hadoop环境，以及如何自定义启动脚本。此外，还解决了在内存充足情况下运行内存不足的错误，以及在YARN上运行spark-submit时因JDK问题导致的故障。

安装：

安装在客户端：解压包解压在 /opt/software/spark(自己定义的目录)
配置文件:
修改slaves文件：其中配置worker的节点
修改配置文件：spark-env.sh,配置hadoop相关信息

3.修改命令：
sbin目录下的 start-all.sh 改为： start-1.6.3.sh（自定义）
4.修改环境变量：
在这里插入图片描述

问题：

1.在内存充足的情况下，运行时，报错：运行内存不足：
解决方法：查看配置文件 spark-env.sh 是不是配置了其他的参数
在这里插入图片描述
2.在yarn上运行spark-submit时出现：
解决：因为jdk的问题
需要在yarn-site.xml中添加：

<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Small-lP-Pig

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark 提交任务流程

hmyqwe的博客

09-01

613

Spark 应用程序提交到 Yarn 环境中执行的时候，一般会有两种部署执行的方式：Client 和 Cluster。两种模式主要区别在于：Driver 程序的运行节点位置。 Yarn Cluster 模式：Cluster 模式将用于监控和调度的 Driver 模块启动在 Yarn 集群资源中执行，一般用于实际生产环境。（1）任务提交后 Client 会和 ResourceManager 通讯申请启动 ApplicationMaster；（2）ResourceManage r分配 Container

【spark】【在YARN上运行Spark】【Running Spark on YARN】

wq6qeg88的博客

02-17

1310

通常情况下，这并不重要，因为Spark在开始另一个阶段之前完成了一个阶段，唯一可能有影响的情况是在作业服务器类型的场景中，所以需要记住这一点。例如，当运行一个YARN集群，其中运行多个Spark版本的应用程序的混合工作负载时，这可能很有帮助，因为给定版本的shuffle服务并不总是与其他版本的Spark兼容。Spark发行版，由于它已经包含了内置的Hadoop运行时，默认情况下，当作业提交到Hadoop Yarn集群时，为了防止jar冲突，它不会将Yarn的classpath填充到Spark中。

参与评论您还未登录，请先登录后发表或查看评论

Spark On YARN 集群安装部署

weixin_34087301的博客

12-07

233

2019独角兽企业重金招聘Python工程师标准>>> ...

在Hadoop YARN之上配置Spark集群（一）

predict_wise的博客

03-28

1562

前言最近刚接触Spark，想在实验室配一个小规模的Spark分布式集群做实验。虽说只配一个单机版（standalone）的伪分布式集群也可以做实验，但感觉意义不大，同时也为了逼真还原真实的生产环境，查阅了一番资料之后，知道Spark的运行需要外部的资源调度系统来支持，主要有：Standalone Deploy mode、Amazon EC2、Apache Mesos、Hadoop YARN。因为YA

Spark部署在Yarn集群

虎鲸不是鱼

08-27

1307

Spark部署在Yarn集群

spark部署：在YARN上运行Spark

大数据技术杂谈

03-30

5020

精选资源

Spark的Yarn模式

01-20

在运行Spark应用时，可能遇到日志查看的问题，由于Spark运行在YARN上，日志会被分散存储在各个节点上。为方便查看，可以设置日志聚合，通过配置YARN的`log-aggregation-enabled`参数为`true`，并在Spark的提交参数中...

Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践

天冬忘忧的博客

11-06

2420

本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上，详细介绍 Spark 的 YARN 集群搭建过程，以及在 YARN 模式下不同 deploy mode 的区别，并结合实际测试案例，帮助读者全面理解 Spark on YARN 这一重要的大数据技术应用。

Spark的安装与使用.docx【大数据处理】Spark集群安装与配置：涵盖Standalone、Yarn模式及本地调试WordCount程序详解

04-24

内容概要：本文详细介绍了Spark的安装与使用，包括安装环境准备、下载、配置和启动过程。首先明确了安装前需要部署Hadoop集群并安装Scala、Zookeeper以及JDK...在遇到问题时可以参考官方文档或社区资源寻求解决方案。

精选资源

一文搞定Yarn kill spark或flink container的原因

09-09

在使用Spark或Flink在Yarn上运行任务时，了解和掌握容器、Cgroup、Yarn内存管理机制，合理配置资源，是确保任务稳定运行的关键。通过深入分析和调优，可以有效解决因内存限制导致的任务不稳定问题。

Spark Yarn 模式部署

记录点点滴滴

03-30

3679

Spark Yarn 模式部署解压缩文件修改配置文件配置历史服务器配置日志存储路径启动HDFS以及YARN集群提交应用查看进程查看历史页面解压缩文件将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 linux 并解压缩，放置在指定位置 tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module 换名 : mv spark-3.0.0-bin-hadoop3.2 spark-3.0.0-ya

spark部署yarn集群

踏莎行的博客

05-13

2637

spark官方地址：http://spark.apache.org/docs/latest/running-on-yarn.html 环境 linux centos hadoop-2.6.0 spark-1.3.1-bin-hadoop2.6 jdk1.7 python2.6 spark部署yarn模式集群，必须先启动hadoop中的yarn，然后在spark上提交应用到yarn集群上运行。步

将Spark部署到Hadoop YARN上

taohang1990的专栏

04-17

728

用的是Hadoop2.2.0 Spark0.9.1

关于Spark的部署yarn模式

m0_67106804的博客

06-08

688

比较yarn-client和yarn-cluster的区别

部署Spark-YARN模式

m0_37559973的博客

10-03

1017

部署Spark-YARN模式

spark在yarn模式下的安装部署

m0_49159859的博客

03-01

1712

1.安装部署 [0]下载spark安装包 [1]解压spark tar -zxf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/; 2.配置历史服务器 3.配置查看历史服务器

Spark部署模式（三）——Yarn模式

攻城狮Kevin

01-24

1891

目录 1. Yarn模式运行流程 2. 安装Yarn模式 3. 日志查看 Yarn模式是指Spark直接调用Yarn进行资源调度，Standalone下资源调度用的是Spark自身的Master和ApplicationMaster；在Yarn模式下直接直接用Yarn的ResourceManager、NodeManager和Container环境做资源调度，Spark计算框架的Appli...

4、安装部署Spark(Spark on Yarn模式)

Manonll的博客

06-15

4754

执行ls -l命令会看到下面的图片所示内容，这些内容是Spark包含的文件： 4.2.1.2在文件末尾添加如下内容；保存、退出 4.2.1.3重新编译文件，使环境变量生效 4.3验证Spark安装 4.3.1修改${HADOOP_HOME}/etc/Hadoop/yarn-site.xml；说明：在master和slave01、slave02节点都要如此修改此文件 4.4重启hadoop集群（使配置生效） 4.5进入Spark安装主目录 4.5.1执行下面的命令（注意这是1行代码）： 4.5

spark on yarn 安装部署

一蓑烟雨

12-06

1247

准备下载spark,地址：http://spark.apache.org/downloads.html 下载不带hadoop预编译环境的spark最新版本，好处是可以自由使用最新版本的hadoop 下载hadoop,地址：https://hadoop.apache.org/releases.html 1.基本环境配置 [ec2-user@rcf-ai-datafeed-spark-prd-01 conf]$ cat /etc/hosts 127.0.0.1 localhost localh...

如何在docker上部署hdfs zookeeper yarn spark集群

最新发布

07-17

<think>嗯，用户问的是如何在Docker上部署HDFS、ZooKeeper、YARN和Spark集群。这个问题看起来有点复杂，但让我一步步来理清楚思路。首先，我需要确认用户的需求。他们可能想要一个本地的测试环境，或者是一个开发用的小型集群，所以使用Docker来简化部署流程是合理的。接下来，我得考虑各个组件之间的依赖关系。HDFS是Hadoop的核心，ZooKeeper用于协调，YARN负责资源管理，而Spark则运行在YARN之上。所以部署顺序应该是先HDFS和ZooKeeper，然后YARN，最后Spark。然后，我需要确定是否使用现有的Docker镜像还是自己构建。可能社区已经有一些预配置好的镜像，比如sequenceiq/hadoop-docker，这样可以省去很多配置步骤。不过用户可能需要自定义配置，比如修改core-site.xml等文件，这时候可能需要自定义Dockerfile。网络配置也是一个关键点。所有容器需要互相通信，所以使用Docker自定义网络比较合适，通过--network参数指定，确保每个容器都能通过主机名解析到其他容器。数据持久化方面，HDFS的数据需要持久化，否则容器停止后数据会丢失。所以需要挂载volume，比如使用-v参数将本地目录挂载到容器的/data目录。对于ZooKeeper，单节点可能不够可靠，但如果是测试环境的话可以接受。如果是生产环境可能需要多个节点，但用户的问题可能更偏向于测试用途。 YARN的配置需要指向HDFS和ZooKeeper，所以需要确保在启动YARN容器时，配置文件中正确设置了HDFS的地址和ZooKeeper的连接字符串。 Spark运行在YARN上，所以需要配置SPARK_HOME，并且在提交作业时指定yarn作为master。可能还需要将Spark的安装包放在每个节点上，或者通过共享存储挂载。另外，可能需要处理端口映射，比如HDFS的50070，YARN的8088，Spark的8080等，方便用户访问Web界面进行监控。还需要考虑容器的启动顺序，确保HDFS和ZooKeeper先启动，再启动YARN，最后启动Spark。可能需要使用docker-compose来编排服务，这样可以一键启动所有服务，并定义依赖关系。可能遇到的问题包括容器间的网络不通，配置文件中的主机名错误，端口没有正确映射，或者数据卷权限问题。需要提醒用户检查这些点，比如使用docker network inspect查看网络配置，或者进入容器内部检查配置文件。总结下来，步骤大致是：创建Docker网络，启动HDFS和ZooKeeper容器，配置YARN并启动，然后配置Spark以使用YARN作为资源管理器，最后测试集群是否正常工作。可能还需要给出示例的docker-compose.yml文件和配置文件的修改示例，帮助用户更好地理解如何操作。 </think>在Docker上部署HDFS、ZooKeeper、YARN和Spark集群的步骤如下： ### 1. 创建Docker网络 ```bash docker network create hadoop-network ``` ### 2. 部署ZooKeeper ```bash docker run -d \ --name zookeeper \ --network hadoop-network \ -p 2181:2181 \ zookeeper:latest ``` ### 3. 部署HDFS（使用Hadoop镜像） ```bash docker run -d \ --name hadoop-master \ --network hadoop-network \ -p 9000:9000 -p 50070:50070 \ -e "CLUSTER_NAME=hadoop-cluster" \ -e "HDFS_CONF_dfs_replication=1" \ bde2020/hadoop-base:latest ``` ### 4. 部署YARN ```bash docker run -d \ --name yarn-master \ --network hadoop-network \ -p 8088:8088 \ -e "HADOOP_MASTER=hadoop-master" \ bde2020/hadoop-yarn:latest ``` ### 5. 部署Spark（基于YARN模式） ```bash docker run -d \ --name spark-worker \ --network hadoop-network \ -p 8080:8080 \ -e "SPARK_MASTER=yarn" \ -e "HADOOP_MASTER=hadoop-master" \ bde2020/spark:latest ``` ### 6. 验证集群状态 - **HDFS Web UI**: `http://localhost:50070` - **YARN Web UI**: `http://localhost:8088` - **Spark Web UI**: `http://localhost:8080` ### 7. 提交Spark作业示例 ```bash docker exec -it spark-worker spark-submit \ --master yarn \ --deploy-mode cluster \ /path/to/your-application.jar ``` --- ### 注意事项 1. **配置文件同步**：需确保所有容器的`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`配置一致。 2. **数据持久化**：通过`-v /宿主机/目录:/容器目录`实现HDFS/YARN数据持久化。 3. **资源限制**：根据硬件性能调整`yarn-site.xml`中的内存和CPU参数。 4. **多节点扩展**：可通过Docker Compose或Kubernetes实现多节点集群。 ---