SparkStreaming Direct 方式中手动管理 Kafka Offset 的示例代码

在大数据的场景下,流式处理都会借助 Kafka 作为消息接入的中间件,且 SparkStreaming 中 Direct 方式的优越性,现在可以说都使用 Direct 方式来获取 Kafka 数据

Direct 方式是采用 Kafka 低级的 API 来获取数据,也就是说我们要自己来管理 这个offset
SparkStreaming 中可以用 StreamingContext 的 checkpiont 方法来自动帮我们管理 offset。但是有一些缺点:

  • checkpoint 是在每次处理完成后自动帮我们提交的,但是如果我们想实现 at most onec 语义时,checkpoint就不满足
  • 当 Spark 版本升级后,新版本不识别老版本 checkpoint 的信息

所以我们可以自己手动来管理 offset 来达到不同语义的要求,下面是将 offset 保存到 zookeeper 的样例代码:

main类:

import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.{HasOffsetRanges, OffsetRange, KafkaUtils}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import sql.StreamingExamples

object OffsetTest extends App{
  StreamingExamples.setStreamingLogLevels()
  val topic = "iso8583-r3p3"
  val brokers = "ido001:9092,ido002:9092,ido003:9092"

  val sparkConf = new SparkConf().setAppName("Iso8583_KafkaDirect").setIfMissing("spark.master","local[*]")
  val ssc = new StreamingContext(sparkConf, Seconds(3))

  val fromOffSets = ZkUtil.getOffset(topic)
  val messageHandler = (mmd: MessageAndMetadata[String,String]) => (mmd.message())
  val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers, "group.id" -> "lwj")
  val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, String](ssc, kafkaParams, fromOffSets, messageHandler)

  //保存每个批次的offset
  var offsetRanges = Array[OffsetRange]()
  messages.transform(rdd => {
    offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
    rdd
  }).foreachRDD(rdd => {
    //offset管理
    val offsets = scala.collection.mutable.ArrayBuffer[String]()
    for (o <- offsetRanges){
      println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
      offsets += s"${o.topic},${o.partition},${o.untilOffset}"
    }
    //todo offset保存的时间点 根据需求而定
    ZkUtil.setOffset(offsets.toArray)

    //todo 业务逻辑
    println("#################")
    //rdd.foreach(println)
    println(rdd.count())
  })

  ssc.start()
  ssc.awaitTermination()
}

ZkUtil 工具类:

import java.util
import java.util.concurrent.CountDownLatch
import kafka.common.TopicAndPartition
import org.apache.zookeeper.Watcher.Event
import org.apache.zookeeper._

/**
  * Zookeeper工具类
  *
  * @author lwj
  * @date 2018/04/25
  */
object ZkUtil extends Watcher with Serializable{

  protected var countDownLatch: CountDownLatch = new CountDownLatch(1)
  override def process(event: WatchedEvent): Unit = {
    if (event.getState eq Event.KeeperState.SyncConnected) {
      countDownLatch.countDown
    }
  }

  val zk = new ZooKeeper("192.137.128.151:2181,192.137.128.152:2181,192.137.128.153:2181", 5000, ZkUtil)
  val parentPath = "/lwj"
  //默认partition的数量
  val initPartitions = 3
  //默认offset的值
  val initOffset = 0+""
  //这里虽然没有显示的调用,但是会被执行
  if (zk.exists(parentPath, false) == null){
    zk.create(parentPath, "0".getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
  }

  /**
    * 通过topic获取partition以及相应的offset
    *
    * @param topic
    * @return
    */
  def getOffset(topic:String): Map[TopicAndPartition, Long] ={
    val zkPath = parentPath + "/" + topic
    val map = scala.collection.mutable.Map[TopicAndPartition, Long]()
	
	/**
      * 如果topic节点不存在,那么就创建
      * 并且直接初始化partition节点,而且初始化值都为 initOffset
      */
    if (zk.exists(zkPath, false) == null){
      zk.create(zkPath, "0".getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
      for(i <- 0 to initPartitions - 1){
        zk.create(zkPath + "/" + i, initOffset.getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
      }
    }
    /**
      * 返回offset
      */
	val children = zk.getChildren(zkPath, false)
	val iterator: util.Iterator[String] = children.iterator()
	while (iterator.hasNext){
		val child: String = iterator.next()
		val offset = new String(zk.getData(zkPath +"/"+ child, false, null))
		val tp = new TopicAndPartition(topic, child.toInt)
		map += (tp -> offset.toLong)

	}
	map.toMap
  }

  /**
    * 设置偏移量
    *
    * @param offsets "topic,partition,offset"
    */
  def setOffset(offsets : Array[String]): Unit ={
    offsets.foreach(off =>{
      val splits: Array[String] = off.split(",")
      val partitionPath = parentPath + "/" + splits(0) + "/" + splits(1)
      if (zk.exists(partitionPath, false) == null){
        //默认值是0
        zk.create(partitionPath, splits(2).getBytes, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT)
      }else{
        zk.setData(partitionPath, splits(2).getBytes, -1)
      }
    })
  }
}


以上代码仅供参考,有什么问题或者更好的想法可以留言讨论讨论哈~

### Spark Streaming 中 Kafka 数据格式与配置 在 Spark Streaming 的实现中,当使用 Kafka 作为消息源时,其数据格式和配置主要依赖于所使用的 Kafka 版本以及集成方式。以下是关于 Kafka 数据格式及其配置的关键点: #### 数据格式 Kafka 中的消息通常由键(Key)、值(Value)和元数据组成。对于 Spark Streaming 而言,默认情况下它会读取 Kafka 消息中的 Value 部分并将其解析为 RDD 或 DataFrame/Dataset。 - **键/值对**:每条 Kafka 消息可以被表示为 `(key, value)` 对的形式[^1]。 - **序列化器**:为了支持不同类型的 Key 和 Value,在生产者端需要指定对应的序列化器;而在消费者端,则需提供反序列化逻辑来解码这些二进制流[^2]。 #### 配置参数 针对不同的 API 接口版本 (Direct Approach vs Receiver-based),存在一些差异化的设置选项: ##### Direct Stream 方法 这是推荐的一种无状态消费模式,能够更好地保障 Exactly-once Semantics 。它的核心配置项包括但不限于以下几个方面: - `bootstrap.servers` : 定义用于初始化连接的一组逗号分隔的主机名和端口号列表[^3]. - `subscribe` / `assign`: 可通过主题名称字符串数组订阅多个 topic ,或者手动分配分区偏移量给特定 consumer group 下的任务实例执行. 示例代码展示如何创建 direct stream 并处理来自 kafka broker 上面的数据: ```scala import org.apache.spark.streaming.kafka010._ val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "localhost:9092", "key.deserializer" -> classOf[StringDeserializer], "value.deserializer" -> classOf[StringDeserializer], "group.id" -> "use_a_separate_group_id_for_each_stream", "auto.offset.reset" -> "latest", //earliest|latest|none "enable.auto.commit" -> (false: java.lang.Boolean) ) // 创建输入 DStream 表达式 val topics = Array("test-topic") val stream = KafkaUtils.createDirectStream[String, String](...)(kafkaParams, Subscribe[String, String](topics)) stream.map(record => (record.key(), record.value())) ``` 此处需要注意的是 auto offset reset 参数的选择会影响首次启动应用时候从哪里开始读取消息记录. ##### Receiver-Based Methodology 另一种基于 receiver 的方法虽然简单易懂但是由于引入了额外组件所以相对复杂度较高同时也无法完全消除重复计算的风险因此除非特殊场景下一般不建议采用这种方式. 更多高级特性比如窗口操作、join 等都可以在此基础上进一步扩展开发出来满足实际业务需求.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值