spark-shell运行spark任务参数设置

最新推荐文章于 2025-11-28 14:30:30 发布

原创

最新推荐文章于 2025-11-28 14:30:30 发布 · 2w 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#spark

在使用Spark Shell时遇到任务未接受资源的问题，可以通过设置启动参数解决。如指定executor内存、总CPU核数和每个executor的CPU核数。例如：`--executor-memory 10g --total-executor-cores 10 --executor-cores 1`。在Yarn上运行Spark Shell时，Driver需运行在本地。可通过修改Spark Shell启动脚本，将这些参数设为默认，避免每次手动输入。

之前初学spark用spark-shell执行小程序的时候, 每次执行action操作(比如count,collect或者println),都会报错:

WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

同时如果去spark ui上(公司默认为ip:18080)会看到spark-shell为核数core为0:
这里写图片描述

原因是启动spark-shell的时候没有给他分配资源, 所以我们应该在启动spark-shell的时候这么写:

/home/mr/spark/bin/spark-shell --executor-memory 4G \
                               --total-executor-cores 10 \

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阳光洒落你窗前

关注关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【spark床头书系列】spark-shell 任务提交任务参数选项说明示例源码权威详解

wang2leee的博客

11-27

1512

spark-shell 任务提交任务参数选项说明示例源码详解

Spark-Shell的启动与运行

Allwordhuier的博客

08-09

3186

一、运行spark-shell命令执行spark-shell命令就可以进入Spark-Shell交互式环境。命令如下： spark-shell --master <master-url> 上述命令中,–master表示指定当前连接的Master节点，master-url用于指定spark的运行模式，可取的参考值如下所示：参数名称功能描述 liocal 使用一个Worker线程本地化运行Spark liocal[*] 本地运行spark，其工作线程数量与本机CPU逻

参与评论您还未登录，请先登录后发表或查看评论

spark-shell运行参数--master

pursuitK的博客

02-27

2874

spark-shell spark-shell 如果直接使用spark-shell命令直接运行，那么它的一切参数都使用的是默认配置,例如: #资源存储的位置，默认为本地，以及使用什么调度框架，默认使用的是spark内置的资源管理和调度框架Standalone --master 默认为 local[*] #默认使用集群最大的内存大小 --executor-memorty #默认使用最大核数 --total-executor-cores spark-shell [options] spark-sh

【网络编程与 Socket】UDP Socket 实战：写一个低延迟消息系统

最新发布

feizuiku0116的博客

11-28

1374

本文介绍了UDP协议在低延迟系统中的应用，通过实战代码演示如何构建一个基于UDP的消息系统。UDP以其简单快速的特点，适用于游戏同步、视频会议等实时场景，但需要自行处理丢包、乱序和重复问题。文章提供了完整的Python实现代码，并分享了调优技巧如增大缓冲区、设置超时等。同时解释了为什么QUIC等新协议选择基于UDP开发，因为其避免了TCP的延迟问题。最后指出UDP虽不保证可靠性，但通过应用层设计可满足低延迟需求，是实时系统的理想选择。

spark-shell 参数

hua_jing的专栏

06-28

6294

Usage: ./bin/spark-shell [options] Options: --master MASTER_URL spark://host:port, mesos://host:port, yarn, or local. --deploy-mode DEPLOY_MODE Whether to launch the driver program loca...

shell脚本调用spark-sql

weixin_34242658的博客

07-19

1179

为了更方便的查询并产生报表，需要使用shell脚本调用spark-sql spark/bin/spark-sql --master spark://host:7077 -f ${SQL_FILE} > ${OUT_FILE} 转载于:https://www.cnblogs.com/realzjx/p/5686322.html...

spark-shell客户机设置

Dean Chen的专栏

11-19

3962

本文介绍spark集群客户机的设置安装程序spark集群是standalone集群在root帐号下，从spark集群的master上复制spark1.5.2的安装包到目录下，这样配置文件就已经复制过来，其实主要是zookeeper的配置。owner为root，group和other用户都是可以读和运行drwxr-xr-x 14 root root 4.0K Nov 16 11:48 spar

精选资源

Spark启动过程中遇到的错误 ./spark-shell –master spark://node001:7077

01-20

Driver是负责执行用户代码和协调任务的进程，而Executor是在工作节点上运行任务的实际进程。在这种情况下，问题出在Driver内存不足上。错误消息建议通过`--driver-memory`选项或在Spark配置中设置`spark.driver....

Spark-shell批量命令执行脚本的方法

09-15

接着，使用`exec`命令启动`$SPARK_HOME/bin/spark-shell`，并传入一系列参数，例如队列名称、应用程序名称、执行器核心数、内存大小以及配置项等。在`!EOF`和`!EOF`之间的部分，我们可以写入Spark SQL或DataFrame...

hive on spark参数配置

weiha666的博客

12-23

3186

hive on Spark参数： set spark.master=yarn-cluster; #设置spark提交模式 set hive.execution.engine=spark; #设置计算引擎 set spark.yarn.queue=queue_name; #设置作业提交队列 set spa...

100 个常用 Shell 命令使用讲解（非常详细）零基础入门到精通，收藏这一篇就够了

leah126的博客

06-10

5530

在大多数的Linux和Unix系统、及其他类Unix系统中，Shell是用户与操作系统内核交互的主要方式。作为一种强大的命令行解释器，它也支持编程功能，用户可以写脚本来处理各种任务。无论是新手还是专业人士，掌握Shell命令都是必不可少的技能。本文逐个解读和展示Shell脚本中最常用的100个命令，并为每个命令提供实际的例子。

SHELL命令详解

zl965230的博客

02-20

3056

shell分类shell 分为内部命令和外部命令，一般先执行内部命令，再执行外部命令。内部命令外部命令集成于Shell解释器程序内部的一些特殊指令，也称为内建（Built-in）指令 Linux系统中能够完成特定功能的脚本文件或二进制程序属于Shell的一部分属于Shell解释器程序之外的命令没有单独对应的系统文件每个外部命令对应了一个系统文件自动载入内存，可以直接使用必须知道其位置，必须有shell加载才能执行编辑shell命令的辅助操作。

du命令和df命令区别

hqmln的博客

07-31

506

du查看目录大小，df查看磁盘使用情况。 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。 df，disk free，通过文件系统来快速获取空间大小的信息，当我们删除一个文件的时候，这个文件不是马上就在文件系统当中消失了，而是暂时消失了，当所有程序都不用时，才会...

Shell常用命令大全

热门推荐

留小乙的博客

11-01

2万+

嵌入式开发用的最多就是Shell命令，Shell命令是所有的Linux系统发行版所通用的，并不是说我在Ubuntu下学会了Shell命令，换另外一个Linux发行版操作系统以后就没用了，所以学习Shell命令非常有必要。 1、目录信息查看命令文件浏览是最基本的操作了，Shell下文件浏览命令为ls，格式如下： ls [选项] [路径] Is命令主要用于显示指定目录下的内容，列出指定目录下包含的所有的文件以及子目录，它的主要参数有： -a显示所有的文件以及子目录，包括以“”开头的隐藏文件。 -l

Spark：部署和standalone配置调优

weixin_34110749的博客

01-04

282

spark可以不进行任何配置，直接运行，这时候spark像一个java程序一样，是直接运行在VM中的。 spark还支持提交任务到YARN管理的集群，称为spark on yarn模式。 spark还支持Mesos管理的集群，Mesos和YARN一样都是管理集群资源的。另外spark自己提供了一种完整的集群管理模式，就是standa...

Shell脚本：常用100个shell命令使用讲解

IT策士的博客

01-28

9078

在大多数的Linux和Unix系统、及其他类Unix系统中，Shell是用户与操作系统内核交互的主要方式。作为一种强大的命令行解释器，它也支持编程功能，用户可以写脚本来处理各种任务。无论你是新手还是专业人士，掌握Shell命令都是必不可少的技能。在这篇文章中，我将逐个解读和展示Shell脚本中最常用的100个命令，并为每个命令提供实际的例子。

Spark 调优汇总

大数据Spark教程

12-12

804

阅读文本大概需要 9 分钟。之前的两篇文章 Spark 调优一瞥 | shuffle 调优 Spark 的数据本地化分别讲了 shuffle 的参数调优和数据本地化的调优。本文将从以下几个方面来介绍一下 Spark 的调优。资源调优并行度调优代码调优数据本地化内存调优 shuffle 参数堆外内存数据倾斜（内容较多, 下篇文章...

Spark内存分析

ralph_wren的博客

02-15

2278

本文简要介绍了spark内存中storage和execution内存的获取逻辑,摘取源码部分片段加以分析

spark-shell运行找不到mysql的驱动怎么办

03-28

<think>好的，我现在需要解决Spark-shell运行时找不到MySQL驱动的问题，用户想知道如何添加驱动。首先，我应该回忆一下Spark的相关知识。记得Spark在运行时需要依赖第三方jar包，比如数据库驱动。如果驱动不在classpath里，就会抛出ClassNotFoundException。用户提到使用spark-shell，所以应该考虑如何在启动spark-shell时指定MySQL驱动的路径。常见的方法是通过--jars参数来添加jar包。比如spark-shell --jars /path/to/mysql-connector-java.jar。这样应该能正确加载驱动。另外，还有可能用户的环境变量或者Spark配置中没有正确设置。比如，是否将驱动包放在Spark的jars目录下？或者是否在spark-defaults.conf中配置了spark.driver.extraClassPath和spark.executor.extraClassPath？这些也是需要考虑的选项。还需要确认用户使用的MySQL驱动版本是否与MySQL服务器版本兼容。比如，用户引用中提到的MySQL8.0.23，这时候应该使用对应版本的MySQL Connector/J，比如8.0.x版本的驱动，否则可能会有兼容性问题。还有可能用户在代码中没有正确指定驱动类名，比如在JDBC连接时应该用"com.mysql.cj.jdbc.Driver"而不是旧的"com.mysql.jdbc.Driver"，特别是对于MySQL8以上的版本。此外，用户提供的引用里提到Hadoop、Spark、Java等的版本对应关系很重要，需要确认驱动是否与这些版本兼容。比如Spark 2.4.5是否支持MySQL 8.0的驱动，可能需要检查官方文档或社区有没有已知的问题。总结下来，解决办法可能包括： 1. 使用--jars参数直接指定驱动路径。 2. 将驱动jar包放入Spark的jars目录。 3. 配置spark-defaults.conf中的相关classpath设置。 4. 确保驱动版本与MySQL版本匹配。 5. 代码中正确使用驱动类名。现在需要将这些步骤详细整理，并确保用户能一步步操作。同时要注意用户可能遇到的常见错误，比如路径错误、版本不匹配等，给出相应的提示。此外，引用用户提供的版本信息，确保建议的驱动版本与他们的环境一致，比如引用中提到的MySQL8.0.23，所以推荐使用8.0.x的驱动。</think>### 解决Spark-shell运行时找不到MySQL驱动的方法当在Spark-shell中操作MySQL时，若出现`ClassNotFoundException`，通常是因为未正确加载MySQL驱动jar包。以下是逐步解决方法： --- #### **方法1：通过`--jars`参数指定驱动路径** 在启动`spark-shell`时，直接通过`--jars`参数添加MySQL驱动的本地路径。例如： ```bash spark-shell --jars /path/to/mysql-connector-java-8.0.23.jar ``` - **说明**：将`/path/to/`替换为实际驱动文件的路径，驱动版本需与MySQL服务器版本匹配（如MySQL 8.0.23对应`mysql-connector-java-8.0.23.jar`）[^1]。 --- #### **方法2：将驱动放入Spark的`jars`目录** 将MySQL驱动jar包复制到Spark安装目录的`jars/`子目录中： ```bash cp mysql-connector-java-8.0.23.jar $SPARK_HOME/jars/ ``` - **说明**：此方法对所有Spark任务生效，无需每次手动指定路径。 --- #### **方法3：修改Spark配置文件** 在`spark-defaults.conf`中添加以下配置： ```properties spark.driver.extraClassPath /path/to/mysql-connector-java-8.0.23.jar spark.executor.extraClassPath /path/to/mysql-connector-java-8.0.23.jar ``` - **说明**：需重启Spark服务使配置生效。 --- #### **验证是否生效** 在Spark-shell中执行以下代码测试驱动是否加载成功： ```scala Class.forName("com.mysql.cj.jdbc.Driver") // MySQL 8+驱动类名 ``` - 若无报错，则驱动加载成功。 - 若使用旧版本驱动（如MySQL 5.x），驱动类名为`com.mysql.jdbc.Driver`。 --- #### **注意事项** 1. **版本兼容性**：确保驱动版本与MySQL服务器版本一致。例如，MySQL 8.0.23需使用`mysql-connector-java-8.0.23.jar`。 2. **JDBC URL格式**：MySQL 8+需在连接URL中添加时区参数，例如： ```scala val url = "jdbc:mysql://localhost:3306/db?serverTimezone=UTC" ``` --- ###