问题:
当应用由于各种其它因素需要暂停消费时,下一次再次启动后就会有大量积压消息需要进行处理,此时为了保证应用能够正常处理积压数据,需要进行相关调优。
另外对于某个时刻,某个topic写入量突增时,会导致整个kafka集群进行topic分区的leader切换,而此时Streaming程序也会受到影响。
所以针对以上问题我们进行了如下调优:
-
spark.streaming.concurrentJobs=10:提高Job并发数,读过源码的话会发现,这个参数其实是指定了一个线程池的核心线程数而已,没有指定时,默认为1。
-
spark.streaming.kafka.maxRatePerPartition=2000:设置每秒每个分区最大获取日志数,控制处理数据量,保证数据均匀处理。(spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。假设此项设为1,批次间隔为10s,目标topic只有一个partition,则一次拉取的数据量为1*10*1=10。 计算Kafka吞吐量:
spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的,一般和spark.streaming.backpressure.enabled=true一起使用。那么应该怎么算这个值呢。
如例要10分钟的吞吐量控制在5000,0000,kafka分区是10个。
spark.streaming.kafka.maxRatePerPartition=8400这个值是怎么算的呢。如下是公式
spark.streaming.kafka.maxRatePerPartition的值 * kafka分区数 * (10 *60)(每秒时间)
) -
spark.streaming.kafka.maxRetries=50:获取topic分区leaders及其最新offsets时,调大重试次数。
-
在应用级别配置重试
spark.yarn.maxAppAttempts=5
spark.yarn.am.attemptFailuresValidityInterval=1h
此处需要【注意】:
spark.yarn.maxAppAttempts值不能超过hadoop集群中yarn.resourcemanager.am.max-attempts的值,原因可参照下面的源码或者官网配置。

本文探讨了在Kafka与Spark Streaming联合使用时,如何通过调整关键参数来优化性能,包括提升Job并发数、控制数据处理速率及重试策略,确保在消息积压或写入量激增情况下,系统仍能稳定运行。
1279

被折叠的 条评论
为什么被折叠?



