Spark-Streaming 程序监控

本文介绍了Apache Spark中Spark Streaming模块的性能监控方式。通过Spark提供的Web UI中的“Streaming”选项卡,可以查看关键指标如接收记录数量、每批次处理记录数、处理时间和总消耗时间等。特别强调了Processing Time和Scheduling Delay这两个参数的重要性,并解释了如何根据这些指标来判断系统的实时处理能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考地址:

http://spark.apache.org/docs/latest/streaming-programming-guide.html


官网中指出,spark中专门为SparkStreaming程序的监控设置了额外的途径,当使用StreamingContext时,在WEB UI中会出现一个"Streaming"的选项卡,

       

在此选项卡内,统计的内容展示如下:


 这其中包括接受的记录数量,每一个batch内处理的记录数,处理时间,以及总共消耗的时间。

 在上述参数之中最重要的两个参数分别是Porcessing Time 以及 Scheduling Delay

 Porcessing Time  用来统计每个batch内处理数据所消费的时间

 Scheduling Delay 用来统计在等待被处理所消费的时间

 如果PT比SD大,或者SD持续上升,这就表明此系统不能对产生的数据实时响应,换句话来说就是,出现了处理时延,每个batch time 内的处理速度小于数据的产生速度。

在这种情况下,读者需要想法减少数据的处理速度,即需要提升处理效率。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值