spark-on-yarn jar包优化

本文探讨了在Spark-on-YARN环境下遇到的jar包上传问题,指出该过程耗时较长。当不设置`spark.yarn.jars`和`spark.yarn.archive`参数时,Spark会上传所有jar包到HDFS。为优化此过程,建议在HDFS创建专用目录并预先上传所需jar包。实测表明,这种优化能节省约十秒的运行时间。
spark-on-yarn jar包问题

submit运行过程中会把spark的jar包上传到HDFS的/user/hadoop/.sparkStaging路径下面,运行完毕进行释放,上传的这个过程实际上比较耗费时间

WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.

spark.yarn.jars和spark.yarn.archive参数都不设置的情况下,会上传所有的jar包

INFO yarn.Client: Uploading resource file:/tmp/spark-668107c8-8b33-46ba-abea-ec3d6ccf12ef/__spark_libs__1763828378893967375.zip -> hdfs://hadoop001:9000/user/wzj/.sparkStaging/application_1585137346352_0005/__spark_libs__1763828378893967375.zip
INFO yarn.Client: Uploading resource file:/tmp/spark-668107c8-8b33-46ba-abea-ec3d6ccf12ef/__spark_conf__1888492531721785739.zip -> hdfs://hadoop001:9000/user/wzj/.sparkStaging/application_1585137346352_0005/__spark_conf__.zip
优化

1.在hdfs上新建一个目录并上传spark的所有jar包

[wzj@hadoop001 logs]$ hadoop fs -mkdir -p /spark/j
### 关于 Spark on YARN Shuffle Jar 文件的位置 在 Spark 的官方文档以及社区实践中,`spark-yarn-shuffle.jar` 是用于支持 shuffle service 的核心组件之一。此 JAR 文件通常位于 Spark 安装目录下的 `jars/` 子目录中[^1]。如果需要手动定位该文件,则可以通过以下方式确认其路径: #### 默认位置 对于通过 Apache 官方网站下载的标准二进制(例如引用中的链接指向的版本[^3]),`spark-yarn-shuffle.jar` 应当已经预编译并放置在 `$SPARK_HOME/jars/` 中。 #### 自定义构建环境 如果是自行编译的 Spark 版本,在编译过程中未启用 Hive 支持的情况下,仍然会生成 `spark-yarn-shuffle.jar` 并将其打到最终的发布版中。需要注意的是,自定义编译可能会改变某些依赖项的具体名称或结构,因此建议验证实际生成的 JAR 列表。 #### 配置调整 在配置 Spark 运行于 YARN 模式时,脚本 `common.sh` 替换了默认的 `spark-defaults.conf` 属性设置,其中涉及到了 HDFS 上存储的 JAR 路径[^2]。具体而言,这些路径被更新为本地安装目录内的子集,即: ```bash local:$SPARK_HOME/jars/* ``` 这意味着所有的必要库文件都会从上述地址加载至集群节点上的运行环境中。如果目标是替换现有的 shuffle 实现或者调试特定行为,可以考虑修改 `spark.shuffle.manager` 参数,并确保新的 shuffle manager 所需资源已正确部署。 #### CDH 环境注意事项 针对基于 Cloudera Distribution (CDH) 构建的大数据平台,有时会出现因缺失辅助工具而导致的功能受限情况[^4]。尽管这主要影响其他服务而非直接关联到 shuffle jar 文件本身,但在排查类似问题时仍应检查是否有额外需求满足当前作业流程的要求。 ```python import os def find_shuffle_jar(spark_home): jars_dir = os.path.join(spark_home, 'jars') files = os.listdir(jars_dir) for file_name in files: if 'yarn-shuffle' in file_name and file_name.endswith('.jar'): return os.path.join(jars_dir, file_name) # Example usage with typical SPARK_HOME path print(find_shuffle_jar('/path/to/spark')) ``` 以上代码片段展示了如何程序化查找给定 Spark 主目录下是否存在匹配条件的目标 JAR 文件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值