spark-on-yarn jar包优化

最新推荐文章于 2024-11-19 22:43:23 发布

原创

最新推荐文章于 2024-11-19 22:43:23 发布 · 402 阅读

1 ·

CC 4.0 BY-SA版权

本文探讨了在Spark-on-YARN环境下遇到的jar包上传问题，指出该过程耗时较长。当不设置`spark.yarn.jars`和`spark.yarn.archive`参数时，Spark会上传所有jar包到HDFS。为优化此过程，建议在HDFS创建专用目录并预先上传所需jar包。实测表明，这种优化能节省约十秒的运行时间。

spark-on-yarn jar包问题

submit运行过程中会把spark的jar包上传到HDFS的/user/hadoop/.sparkStaging路径下面,运行完毕进行释放，上传的这个过程实际上比较耗费时间

WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.

spark.yarn.jars和spark.yarn.archive参数都不设置的情况下，会上传所有的jar包

INFO yarn.Client: Uploading resource file:/tmp/spark-668107c8-8b33-46ba-abea-ec3d6ccf12ef/__spark_libs__1763828378893967375.zip -> hdfs://hadoop001:9000/user/wzj/.sparkStaging/application_1585137346352_0005/__spark_libs__1763828378893967375.zip
INFO yarn.Client: Uploading resource file:/tmp/spark-668107c8-8b33-46ba-abea-ec3d6ccf12ef/__spark_conf__1888492531721785739.zip -> hdfs://hadoop001:9000/user/wzj/.sparkStaging/application_1585137346352_0005/__spark_conf__.zip

优化

1.在hdfs上新建一个目录并上传spark的所有jar包

[wzj@hadoop001 logs]$ hadoop fs -mkdir -p /spark/j

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jerrfy_w

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

jar包启动性能优化

专业深耕，技术前沿

01-27

1104

针对JAR（Java ARchive）文件的启动性能优化，可以从多个方面入手，包括JVM参数调整、代码优化、打包优化以及使用性能分析工具等。

Spark环境搭建-Spark-on-Yarn

m0_59432297的博客

11-19

559

大数据开发spark-on-yarn环境搭建

参与评论您还未登录，请先登录后发表或查看评论

spark on yarn优化

weixin_42728895的博客

09-09

1150

参考链接： http://bcxw.net/article/136.html 一 .spark on yarn 部署优化启动Spark任务时，在没有配置spark.yarn.archive或者spark.yarn.jars时，会看到不停地上传jar，非常耗时；使用spark.yarn.archive可以大大地减少任务的启动时间，整个处理过程如下。 1、在本地创建zip文件，压缩jar包 *# 进入到spark的jars目录，在spark的jars目录下压缩包 zip spark.zip ./ 2、HDF

spark on yarn集群调优

weixin_45809780的博客

08-27

812

在client模式下运行，观察运行日志，使得大多数计算是PROCESS_LOCAL，同时application运行时间减少了，才是有效的优化。spark中的本地级别有：PROCESS_LOCAL(进程本地化，效率最高), NODE_LOCAL（节点本地化）, PACK_LOCAL（机架本地化）, ANY, NO_PREF。在实际运行中我们希望的是大多数计算是进程本地化或节点本地化。分布式存储是大数据技术的核心，而为了提高大数据计算的效率，使计算靠近数据，减少移动大量数据而产生的网络io和磁盘io。

另辟蹊径的 Android 包体积优化之 Jar 包压缩

weixin_38754349的博客

03-10

446

1、背景最近因为需要做文本的字符串编码解析，所以引用了 IBM 的一个开源库。不过这个库体积实在太大，9M！讲道理，对于文本编码方式解析这种功能，如果需要使用 9M 的代码才能完成确实有些...

ibator优化的jar包

10-27

ibator插件优化的jar包，安装完ibator后，将eclipse\plugins\org.apache.ibatis.ibator.core_1.2.1下的jar包替换即可。

精选资源

SPARK2_ON_YARN-2.4.0.cloudera2.jar

03-10

SPARK2_ON_YARN-2.4.0 jar包下载

【大数据学习 | Spark-Core】yarn-client与yarn-cluster的区别

2301_80912559的博客

11-19

640

这3样需要从提交程序端上传到 /user/xxx/.sparkStaging/yarnid/目录下（分布式缓存），然后再分发到运行任务的计算节点。当在客户端提交多个spark应用时，它会对客户端造成很大的网络压力，yarn-client模式只适合交互式环境开发。客户端一经提交可以离开，常用于正常的提交应用，适合生产环境。，那运行和监控executor 的任务都是在yarn集群里面。，所以driver端（客户端）是不能离开的。3）运行任务的jar包（带有代码的jar包）2）运行要依赖的jar包。

spark执行优化--将依赖的jar包上传至hdfs上（spark3.1.1）

weixin_42934205的博客

10-26

4013

spark执行过程优化------将spark运行的jar包上传到HDFS上，避免在提交任务时因为spark程序包过大导致的占用运行时间和cpu资源起因是在提交spark任务的时候，因为服务器处于离线状态，好多的依赖包无法通过网络进行下载，所以打成的spark程序包比较大，大概在200~300MB之间，每次通过spark-on-yarn提交任务时，总是有一段时间将本地的spark程序上传到hdfs，占用了太多的网络资源以及cpu。所以，通过配置spark.yarn.archive和spark.yarn.

Java引用jar的优化

weixin_33882452的博客

01-31

240

一般java的类文件开头都是各种引用：如上图的引用可以写成转载于:https://www.cnblogs.com/marmot-1212/p/8392644.html

java spark on yarn_Spark On Yarn中spark.yarn.jar属性的使用

weixin_29877113的博客

02-16

199

今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题：spark-sql --master yarn 14/12/29 15:23:17 INFO Client: Requesting a new application from cluster with 1NodeManagers14/12/29 15:23:17 INFO Client: Verifying ou...

Spark on YARN时大量jar乱飞情况

Nice的博客

11-08

611

在使用Spark On Yarn的时候会出现jar包乱飞的现象，并且会给出警告提示下面来分析一下这个问题目录1.日志现象2.解决方式：3.结果验证 1.日志现象 SparkonYarn的日志信息： WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME. INFO yarn.Client: Upload.

使用maven下载jar包慢优化

yourmamaboomboom的博客

12-02

1012

1.找到maven的安装目录下的conf文件夹下的settings.xml,复制该文件到maven的本地方库下的.m2文件夹下 2.打开复制好的settings.xml文件,找到下的标签,以阿里的仓库为例: alimaven central aliyun maven http://maven.aliyun.com/nexus/conte

晒一晒程序员桌面，你惊呆了没？

芋艿V

06-21

823

点击上方“芋道源码”，选择“设为星标”管她前浪，还是后浪？能浪的浪，才是好浪！每天 8:55 更新文章，每天掉亿点点头发...源码精品专栏原创 | Java 2020 超神之路，很肝~...

spark on yarn运行产生缺jar包错误及解决办法

张伟的专栏

10-03

2697

spark on yarn运行产生缺jar包错误及解决办法 2014-12-10 19:57:44http://blog.youkuaiyun.com/mach_learn/article/details/41824737--点击数: 1246 1、本地运行出错及解决办法当运行如下命令时： ./bin/spark-submit /--class org

【轻量打包jar，减少不必要依赖】

qq_31532979的博客

02-23

1904

对于大型项目，可以使用增量构建来只构建发生更改的模块，而不是整个项目。可以使用 Maven 的增量构建插件（如 Maven Invoker Plugin）来实现增量构建。可以使用 Maven 的增量构建插件（如 Maven Invoker Plugin）来实现增量构建。可以使用 Maven 的增量构建插件（如 Maven Invoker Plugin）来实现增量构建。可以使用 Maven 的构建缓存插件（如 build-cache-maven-plugin）来启用构建缓存。可以在 Maven 的。

spark on yarn-消除警告

Deng0_huakai

12-28

501

spark on yarn log-yarn.sh脚本 export HADOOP_ROOT_LOGGER=DEBUG,console export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop $SPARK_HOME/bin/spark-submit \ --master yarn \ --class www....

Spark On Yarn彻底解密

kxr0502的博客

02-05

4814

Spark on yarn 彻底解密本期内容： 1、Hadoop yarn解密 2、Spark on yarn 解密一、Hadoop Yarn 解析 1、Yarn是Hadoop推出整个分布式（大数据）集群的资源管理器，负责资源的管理和分配，基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架，例如Spark，MapReduce、Storm等;

spark 集群优化

qq_32323239的博客

07-06

1074

前言最近公司有一个生产的小集群，专门用于运行spark作业。但是偶尔会因为nn或dn压力过大而导致作业checkpoint操作失败进而导致spark 流任务失败。本篇记录从应用层面对spark作业进行优化，进而达到优化集群的作用。集群使用情况有数据的目录以及使用情况如下：目录说明大小文件数量数据数量占比数据大小占比 /user/root/.sparkStaging/applicationIdxxx spark任务配置以及所需jar包 5

spark-yarn-shuffle.jar

最新发布

03-18

### 关于 Spark on YARN Shuffle Jar 文件的位置在 Spark 的官方文档以及社区实践中，`spark-yarn-shuffle.jar` 是用于支持 shuffle service 的核心组件之一。此 JAR 文件通常位于 Spark 安装目录下的 `jars/` 子目录中[^1]。如果需要手动定位该文件，则可以通过以下方式确认其路径： #### 默认位置对于通过 Apache 官方网站下载的标准二进制包（例如引用中的链接指向的版本[^3]），`spark-yarn-shuffle.jar` 应当已经预编译并放置在 `$SPARK_HOME/jars/` 中。 #### 自定义构建环境如果是自行编译的 Spark 版本，在编译过程中未启用 Hive 支持的情况下，仍然会生成 `spark-yarn-shuffle.jar` 并将其打包到最终的发布版中。需要注意的是，自定义编译可能会改变某些依赖项的具体名称或结构，因此建议验证实际生成的 JAR 列表。 #### 配置调整在配置 Spark 运行于 YARN 模式时，脚本 `common.sh` 替换了默认的 `spark-defaults.conf` 属性设置，其中涉及到了 HDFS 上存储的 JAR 路径[^2]。具体而言，这些路径被更新为本地安装目录内的子集，即： ```bash local:$SPARK_HOME/jars/* ``` 这意味着所有的必要库文件都会从上述地址加载至集群节点上的运行环境中。如果目标是替换现有的 shuffle 实现或者调试特定行为，可以考虑修改 `spark.shuffle.manager` 参数，并确保新的 shuffle manager 所需资源已正确部署。 #### CDH 环境注意事项针对基于 Cloudera Distribution (CDH) 构建的大数据平台，有时会出现因缺失辅助工具包而导致的功能受限情况[^4]。尽管这主要影响其他服务而非直接关联到 shuffle jar 文件本身，但在排查类似问题时仍应检查是否有额外需求满足当前作业流程的要求。 ```python import os def find_shuffle_jar(spark_home): jars_dir = os.path.join(spark_home, 'jars') files = os.listdir(jars_dir) for file_name in files: if 'yarn-shuffle' in file_name and file_name.endswith('.jar'): return os.path.join(jars_dir, file_name) # Example usage with typical SPARK_HOME path print(find_shuffle_jar('/path/to/spark')) ``` 以上代码片段展示了如何程序化查找给定 Spark 主目录下是否存在匹配条件的目标 JAR 文件。