yarn分布式缓存策略

本文探讨了在Spark环境中加载第三方jar包的具体步骤及遇到的问题。张某在使用zip压缩的第三方jar包时,通过修改配置使Spark能够识别并使用其中的文件。然而,在实际运行中发现了文件未被正确识别的问题。通过对yarn的executor container的排查,找到了job的缓存路径,并调整了配置路径,最终解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

张某 提交的第三方jar /home/zhang/r_igraph.zip ,

config[["spark.yarn.dist.archives"]] <- "/home/zhang/miniconda3/envs/r_igraph.zip"

config[["spark.r.command"]] <- "./r_igraph.zip/bin/Rscript"

config$sparklyr.apply.env.R_HOME <- "./r_igraph.zip/lib/R"

config$sparklyr.apply.env.RHOME <- "./r_igraph.zip/"

config$sparklyr.apply.env.R_SHARE_DIR <- "./r_igraph.zip/lib/R/share"

config$sparklyr.apply.env.R_INCLUDE_DIR <- "./r_igraph.zip/lib/R/include"

代码使用zip中的文件,发现找不到

经过排查

1、查找yarn的executor 的container

登录d129的机器的找到container_1536303536795_778181_01_000024进程

ps -ef|grep container_1536303536795_778181_01_000024

3、找到提交的job缓存路径

r_igraph.zip 解压后会多一集r_igraph目录

config[["spark.yarn.dist.archives"]] <- "/home/zhang/miniconda3/envs/r_igraph.zip"

config[["spark.r.command"]] <- "./r_igraph.zip/r_igraph/bin/Rscript"

config$sparklyr.apply.env.R_HOME <- "./r_igraph.zip/r_igraph/lib/R"

config$sparklyr.apply.env.RHOME <- "./r_igraph.zip/r_igraph"

config$sparklyr.apply.env.R_SHARE_DIR <- "./r_igraph.zip/r_igraph/lib/R/share"

config$sparklyr.apply.env.R_INCLUDE_DIR <- "./r_igraph.zip/r_igraph/lib/R/include"

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值