Spark-ClickHouse-ES实时项目第七天-精确一次性消费读取偏移量

最新推荐文章于 2024-09-18 14:29:04 发布

SmallScorpion

最新推荐文章于 2024-09-18 14:29:04 发布

阅读量298

点赞数

分类专栏： Spark-ClickHouse-ES实时项目文章标签： redis

本文链接：https://blog.youkuaiyun.com/qq_40180229/article/details/108615736

版权

Spark-ClickHouse-ES实时项目专栏收录该内容

17 篇文章

订阅专栏

该项目使用Spark处理实时数据，结合ClickHouse与ES。日志仓库分别在GitHub上，手动提交偏移量初始读取自Redis，若无数据则从Kafka起始位置开始。在运行过程中，业务数据会不断更新到Redis。如果服务宕机，重启时会根据Redis中的偏移量继续消费。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

仓库位置

日志生成：https://github.com/SmallScorpion/gmall-mock.git
日志服务器：https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git

手动提交偏移量

第一次读取会加载Redis数据，若是redis中没有数据那么将消费kafka起始数据，经过业务计算保存到redis中
中间循环过程是业务到redis保存数据的过程
若中途宕机，重启进程服务都会读取redis偏移量位置进行消费

OffsetManager

package com.warehouse.gmall.realtime.util

import java.util

import org.apache.kafka.common.TopicPartition
import redis.clients.jedis.Jedis

import scala.collection.mutable

object OffsetManager {

  /**
   * 从redis中读取偏移量
   * @param topicName
   * @param groupId
   * @return
   */
  def getOffset( topicName: String, groupId: String ): Map[TopicPartition, Long] ={

    // Redis => type->hash  key->offset:[topic]:[groupid]  field->partition_id value->offset
    // 存入 ->  hmseet offset:GMALL_START:group_dau 0 12 1 15 2 7 3 18
    // 取出 ->  hgetall offset:GMALL_START:group_dau
    val jedis: Jedis = RedisUtil.getJedisClient

    val offsetKey = "offset:" + topicName + ":" + groupId
    val offsetMap: util.Map[String, String] = jedis.hgetAll(offsetKey)

    import scala.collection.JavaConversions._

    val kafkaOffsetMap: Map[TopicPartition, Long] = offsetMap.map { case (partitionId, offset) =>
      (new TopicPartition(topicName, partitionId.toInt), offset.toLong)
    }.toMap

    kafkaOffsetMap
  }


  // TODO 把偏移量写入redis


}

业务代码

 val topic: String = "GMALL_SPARK_CK_ES_START"
    val groupId = "DAU_GROUP"

    // TODO 读取偏移量
    val kafkaOffsetMap: Map[TopicPartition, Long] = OffsetManager.getOffset( topic, groupId )

    // TODO 消费kafka数据
    var recordInputStream: InputDStream[ConsumerRecord[String, String]] = null

    if( kafkaOffsetMap != null && kafkaOffsetMap.nonEmpty ) {
      recordInputStream = MyKafkaUtil.getKafkaStream( topic, ssc, kafkaOffsetMap, groupId )
    } else {
      recordInputStream = MyKafkaUtil.getKafkaStream( topic, ssc )
    }