Spark--06 SparkStreaming kafka消息堆积

最新推荐文章于 2022-09-20 13:28:34 发布

原创最新推荐文章于 2022-09-20 13:28:34 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

10 篇文章

订阅专栏

本文探讨了在Kafka与Spark Streaming联合使用时，如何通过调整关键参数来优化性能，包括提升Job并发数、控制数据处理速率及重试策略，确保在消息积压或写入量激增情况下，系统仍能稳定运行。

问题：

当应用由于各种其它因素需要暂停消费时，下一次再次启动后就会有大量积压消息需要进行处理，此时为了保证应用能够正常处理积压数据，需要进行相关调优。

另外对于某个时刻，某个topic写入量突增时，会导致整个kafka集群进行topic分区的leader切换，而此时Streaming程序也会受到影响。

所以针对以上问题我们进行了如下调优：

spark.streaming.concurrentJobs=10：提高Job并发数，读过源码的话会发现，这个参数其实是指定了一个线程池的核心线程数而已，没有指定时，默认为1。
spark.streaming.kafka.maxRatePerPartition=2000：设置每秒每个分区最大获取日志数，控制处理数据量，保证数据均匀处理。（spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。假设此项设为1，批次间隔为10s，目标topic只有一个partition，则一次拉取的数据量为1*10*1=10。计算Kafka吞吐量：

spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的，一般和spark.streaming.backpressure.enabled=true一起使用。那么应该怎么算这个值呢。

如例要10分钟的吞吐量控制在5000,0000，kafka分区是10个。

spark.streaming.kafka.maxRatePerPartition=8400这个值是怎么算的呢。如下是公式

spark.streaming.kafka.maxRatePerPartition的值 * kafka分区数 * (10 *60)(每秒时间)
）
spark.streaming.kafka.maxRetries=50：获取topic分区leaders及其最新offsets时，调大重试次数。
在应用级别配置重试
spark.yarn.maxAppAttempts=5
spark.yarn.am.attemptFailuresValidityInterval=1h