SparkStreaming 新增Metrics 支持Kafka数据消费堆积监控

最新推荐文章于 2024-12-26 15:23:58 发布

原创

最新推荐文章于 2024-12-26 15:23:58 发布 · 598 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

在SparkStreaming任务运行的过程中，由于数据流量或者网络的抖动，任务的batch很可能出现delay，所以就出现了一个需求：实时监控任务对kafka消息的消费，及时了解堆积情况。

这个需求应该有很多种解决方案，我这边提供的思路是基于Spark Metrics System的。SparkStreaming任务在运行过程中，会产生很多Metrics信息，不断地推送到Sink上面，我们这里使用到的是MetricsServlet。

打开Spark UI，我们能够很方便地通过RestAPI方式请求任务Metrics信息，接口如下：

http://ClusterHostName:8088/proxy/AppID/metrics/json

返回的Metrics信息如下：

这里应用的方案就是在这些Metrics里面添加一个新Metrics，这个Metrics应该能够向监控应用程序提供任务batch对records的消费情况。

我们知道，SparkStreaming应用消费Kafka数据有两种API：Reciever模式和Direct模式。所以针对使用的不同的API，需要提供不同的Metrics信息，其格式可以如下设置：

Reciever-Metrics
kafka.consumer.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

PowerMee

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Kafka在政府领域的应用：公共数据实时分析

AI架构全栈开发实战笔记

08-11

1143

简单来说，Kafka是一个分布式的事件流平台发布和订阅记录流，类似于消息队列或企业消息系统。以容错的持久化方式存储记录流。当记录发生时处理它们。Kafka的设计初衷是解决LinkedIn内部海量日志数据的实时收集、存储和分析问题。它的出现，很好地填补了传统消息队列在高吞吐、高可用和持久化方面的不足，特别适合处理大规模的实时数据流。

数据服务监控告警：大数据系统的哨兵

最新发布

AI架构全栈开发实战笔记

08-23

1008

如何构建一套针对大数据系统特点的、高效、智能、全面的监控告警体系，实现从“事后救火”到“事前预警”的转变，是每个大数据平台运维与开发团队面临的核心挑战。如果将大数据系统比作一座日夜运转的繁华都市，那么监控告警系统就如同遍布城市各个角落的“哨兵”与“预警系统”，它们不眠不休地巡逻，时刻感知系统的脉搏，及时发现潜在的风险与异常，并在第一时间发出警报，通知运维与开发人员进行处置。Metrics提供了系统的“脉搏”，Logs提供了事件的“快照”，Traces提供了请求的“路径图”。

参与评论您还未登录，请先登录后发表或查看评论

吃一堑长一智！监控kafka消息堆积量

m0_57624732的博客

07-13

1032

美团面试经历（还原最真实的4面）美团一面： 1、自我介绍 2、聊项目相关介绍项目怎么保证redis与Mysql的数据一致性见你写了个加随机数预防缓存雪崩，解释一下未改进和改进后的Jmter测试性能对比 3、Redis 为什么选择Redis作为缓存？为什么Redis的性能十分的高？说一下单进程、单线程的Redis和你平时写的多线程程序的对比如何保证Redis的高可用？（哨兵、持久化策略RDB、AOF）解释一下哨兵、RDB、AOF 主从一致性 Redis数据淘汰策略能说一下分布式事务吗

Kafka监控消息堆积

JJJHJHJ的博客

12-26

255

logSize（已存入分区的数据量）想象一下，有一个专门存放数据的小仓库，这个小仓库就是一个叫做 “partition（分区）” 的地方。logSize 就像是这个小仓库里已经存放了多少货物（数据）。比如说，这个小仓库里已经有 100 条数据记录了，那么这个分区的 logSize 就是 100。

Spark Metric 指标/监测系统详解及源码分析

dingyufei的博客

03-25

1884

Metric 翻译自spark的官方文档： Spark 有一个基于 Dropwizard 度量库的可配置度量系统。这允许用户向各种接收器报告 Spark 指标，包括 HTTP、 JMX 和 CSV 文件。度量系统是通过一个配置文件配置的，Spark 希望该文件出现在 $Spark home / conf / 度量中。属性。可以通过 spark.metrics.conf 配置属性指定自定义...

Spark metrics实现KafkaSink

大数据星球-浪尖

03-27

580

背景监控是Spark非常重要的一部分。Spark的运行情况是由ListenerBus以及MetricsSystem 来完成的。通过Spark的Metrics系统，我们可以把Spark Me...

SparkStreaming与Kafka010之05 监控Spark程序获取Metrics信息 addStreamingListener或读取http信息解析json串

C_time的博客

12-26

2583

要获取Metrics信息，监控 1.加监听：新的办法，直接一句话搞定 ssc. addSparkStreamingListener SparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener 2.老办法：解析Metrics的json串信息好像是http请求之类的返回json串而且一般请求的4040...

大数据最佳实践-kafka

program哲学

04-16

6630

kafka各个重难点大全，超详细

Spark的监控

weixin_30325487的博客

06-19

342

Monitoring spark的监控我们目前只介绍4种，分别是通过Spark UI进行监控使用Spark HistoryServer UI进行监控使用REST API进行监控 Metrics 通过Spark UI进行监控 Spark的webUI界面给我们提供了非常好的作业监控界面，通过仔细观察那些界面我们可以做很多的事，比如可以...

Kafka监控：消息堆积、消息延迟、以及如何处理

热门推荐

07-08

1万+

在日常的工作中，我们发现很多开发对Kafka本身并不太了解，运维由于经验的不足在初期对整体Kafka的管控也不是那么的严格，导致在使用上有很多问题。所以我们整合了内部的Kafka监控服务的数据，结合我们平台的任务血缘，开发了自己的一套Kafka监控服务。目前这套系统整体还比较初级，除了关联了Kafka、流表、和任务之间的关系以外，我们还对以下这几种情况做了主动监控： KafkaTopic的分区数的合理性，主要监控消息队列分区数过少或者过多的情况，主要是过少的情况，防止...

spark_prometheus_metrics.json

09-13

博客https://blog.youkuaiyun.com/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

spark-metrics:Spark指标相关的自定义类和接收器（例如Prometheus）

05-05

Apache Spark指标扩展这是与ApacheSpark指标相关的自定义类（例如源，接收器）的存储库。我们试图用Prometheus接收器扩展Spark Metrics子系统，但没有在上游合并。为了支持其他人使用Prometheus，我们将接收器外部化并通过此存储库提供，因此无需构建Apache Spark fork。有关我们如何使用此扩展和的Prometheus Sink的更多信息，请阅读以下文章：

SparkStreaming采集Kafka数据

菜鸟也学大数据的博客

12-21

275

实现SparkStreaming类 import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord} import org.apache.spark.streaming.dstream.{DStream, InputDStream} import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} im

Spark源码阅读02-Spark核心原理之监控管理

一入大数据深似海?别怕!“数据极客圈”就是你的救生圈，走对圈子跟对人，趣析数据、畅聊趋势，快进圈子!

11-20

2292

监控管理监控管理UI监控实时UI监控历史UI监控Metrics输入源(Metrics Source)介绍输出方式(Metrics Sink)介绍TEST 监控管理 Spark提供了UI监控、Spark Metrics和REST 3种方式监控应用程序运行状态。其中： UI 监控以网页方式提供用户监控调度阶段、存储、运行环境和Executor参数等信息 Spark Metrics通过定制的方式，将应用程序的运行情况以多种方式展现出来， REST则提供API给用户，根据API开发监控应用程序运行的各阶段消息

spark jobserver设计[3]--状态监控

u012477420的博客

02-17

768

jobserver在运行用户的作业时，需要提供相关的监控信息给用户，包括作业运行进度、各个阶段的运行诊断、节点的信息等。一日志展示 spark执行任务时按照宽窄依赖将任务划分为不同的stage，每个stage包含多个task，在此以stage和task的完成情况展示任务执行进度。spark提供了SparkListener抽象类，通过继承该类并且实现相关的抽象方法...

kafka性能监控之KafkaMetrics Sensor

Rapper金馆长的博客

12-08

6584

说起kafka的metrics,很多人应该是即陌生又熟悉, 熟悉是因为阅读源码的过程中,不可避免地会看到metrics.add()的代码.而陌生是因为metrics仅仅只是辅助功能,并不是kafka主要逻辑的一部分,并不会引起读者太多的关注. 同时网上关于metrics这一块的分析也较少,这篇文章就带着大家一探metrics的究竟. 在这里首先说明一个让我产生了误解的地方,不少文章说kafk

开源项目 `metrics-kafka` 使用教程

gitblog_00304的博客

09-02

632

开源项目 metrics-kafka 使用教程项目介绍 metrics-kafka 是一个开源项目，旨在为 Kafka 提供度量（Metrics）支持。通过该工具，用户可以轻松地收集、管理和监控 Kafka 集群的各项性能指标。该项目基于 Kafka 的 2.8.1 API，并提供了丰富的功能来帮助用户更好地理解和优化 Kafka 的性能。项目快速启动以下是一个简单的快速启动示例，展示如何使...

sparkStreaming监控的两种方式

qq_42359675的博客

09-09

1397

注意：里面用到的一些特殊类或者接口请看我的离线监控就能找到 import com.cartravel.loggings.Logging import com.cartravel.tools.{PropertiesUtil, SparkMetricsUtils} import org.apache.spark.rdd.RDD import org.joda.time.DateTime import org.json4s.DefaultFormats import org.json4s.jackson.Json

让 Spark Streaming 程序在 YARN 集群上长时间运行（二）—— 日志、监控、Metrics

瓜牛呱呱的博客

04-15

2741

前段时间看到了外国朋友写的一篇文章，觉得还不错，于是就把他翻译一下，供大家参考和学习。如果没看过第一篇文章，建议先去看一下上一篇文章哈，这里是接着上一篇文章来写的哈~ 日志访问 Spark 应用程序日志的最简单方法是配置 Log4j 控制台 appender，等待应用程序终止并使用 yarn logs -applicationId [applicationId] 命令。 ...