【无标题】

spark性能优化 求解

问题描述

最近公司的一个新需求,两路数据源。一个大小140G左右,一个30G左右,进行感知关联。
spark处理的小时级别的任务,执行时间过长,发现是stage1 shuffle阶段的时间过长。该阶段是进行关联key,然后算法处理的过程。
在这里插入图片描述
在这里插入图片描述

算法的处理是一些门限的判断、过滤、求和等,自我感觉没什么可优化的。
spark任务执行的性能参数都有调整过,对任务执行的时间影响也不大。
数据质量也检查过,做了一下处理,排除了这个问题。
yarn top中发现pengding占用过多,因为处理的是全省的数据,关联key的体量会很大,
个人推测是在stage1阶段,产生的小文件过多导致的。
在这里插入图片描述

目前我的想法是在flatMap前做小文件合并处理,不知道是否具有可行性。想请教一下大家,
或者大家有遇见过相似的情况嘛?是如何解决的。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值