
structured streaming
文章平均质量分 80
soaring0121
这个作者很懒,什么都没留下…
展开
-
解决spark streaming 聚合算子(shuffle)并行度200及缓存buffer不断增大的问题
问题现象: spark流式计算中做聚合需要使用 group by算子,我在使用过程中遇到一些问题,通过stage图可以看出2个问题:1. 聚合算子每个批次shuffle write的数据量直线上升,这样会导致算子得效率逐渐降低,甚至会导致oom2.聚合算子(shuffle)的并行度是200,即使设置spark.sql.shuffle.partitions=10也不生效。200并行度会增加调度压力,并且会把并行度传递到下游(如果不做repartition)。我的业务中会把数据写入iceberg..原创 2021-11-17 17:43:37 · 2048 阅读 · 0 评论 -
Spark Structured Streaming特性详解
本文所有内容是基于spark 2.4.3版本官方文档Structured Streaming provides fast, scalable, fault-tolerant, end-to-end exactly-once stream processing without the user having to reason about streamingStructured Stream...原创 2020-01-10 22:03:59 · 1065 阅读 · 0 评论