spark 2.3官网提供的读取kafka流数据

最新推荐文章于 2025-05-28 15:15:59 发布

原创最新推荐文章于 2025-05-28 15:15:59 发布 · 468 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一个使用Apache Spark Streaming从Kafka中消费数据的示例应用，展示了如何配置Spark Session，创建Streaming Context，以及从指定主题读取并处理消息流的方法。此外，还涉及了如何处理偏移量以确保数据的正确处理。

package com.ultimate.music.streaming.tango

import java.sql.PreparedStatement

import com.ultimate.music.util.PropertyUtil._
import com.ultimate.music.util.{PropertyUtil}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.kafka010.LocationStrategies._
import org.apache.spark.streaming.kafka010.{CanCommitOffsets, ConsumerStrategies, HasOffsetRanges, KafkaUtils}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Test {
  val streamingInterval = PropertyUtil.getKey(STREAMING_INTERVAL).toLong
  val spark = SparkSession
    .builder()
    .appName("streamingApp")
    .config(sparkConf)
    .getOrCreate()

  //lazy val sc = new SparkContext(sparkConf)
  val sc = spark.sparkContext
  lazy val ssc = new StreamingContext(sc, Seconds(streamingInterval))

  def main(args: Array[String]): Unit = {
    val messages1 = KafkaUtils.createDirectStream[String, String](ssc, PreferConsistent, ConsumerStrategies.Subscribe[String, String]( PropertyUtil.getKey("topic.t1.api"):: Nil, kafkaParams))
  
    messages1.foreachRDD(rdd => {
      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      if (!rdd.isEmpty()) {
        //do somthing else ...
       // km.persistOffsets[String, String](rdd)
        messages1.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      }
  
    })

    ssc.start()
    //等待结束
    ssc.awaitTermination()
 
  }

}