spark groupByKey flatMapGroups初试

在处理大规模历史库存数据时,为区分平稳流量和波动流量,使用Spark的groupByKey和flatMapGroups方法。然而在集群环境中,发现flatMapGroups后数据顺序出现错乱。通过在flatMapGroups内部进行排序解决了问题,同时指出领导提供的模板中类似操作也可能引发乱序,将继续研究flatMap的乱序原因。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

业务需要:

根据历史库存 预测未来某时间内库存

 

算法需求:

1. 统计历史3年内的库存量

2. 将库存划分为 平稳流量 和 波动(异常)流量

 

实际情况:

1. 每天数据量过亿

2. 每天细分维度小于10万

3. 数据中存在 时间断点

4. 尝试按月批次直接处理,过程较慢

 

回归正题,数据需要 按 各细分维度 计算异常,平稳,填充时间断点,

第一感觉,分组,然后对组内数据处理,

一顿百度 , 发现 groupByKey 可以按 key(某几个字段分组),然后使用flatMapGroups 对组内数据 单独处理

df2.groupByKey(row => {
      (row.getAs[](""),row.getAs[](""))
    }).flatMapGroups((key, it) => {
      ArrayBuffer[(String/**/,String/**/)]()  
   })
}

  一顿操作,本地ok

放入生产,集群环境,顿时懵了,结果完全不对。。。

怀疑executor导致问题,先添加日志

神奇是事情发生了,groupByKey之前数据是按时间排序了,然而,flatMapGroups 之后显示顺序完全错乱

百度无果,无奈 

只能在flatMapGroups 开始先 进行排序 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值