sparkStreamming和高级数据源kafka

本文介绍了两种将Spark Streaming与Kafka集成的方法:基于接收器的方法和直接方法,并提供了具体的实现示例。通过创建Kafka主题和运行Spark Streaming程序来演示如何处理实时数据流。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于SparkStreaming+Kafka的组合,有两种方法。

Approach 1: Receiver-based Approach

Approach 2: Direct Approach (No Receivers)



实例1----KafkaReceive

----------------------------------------------------------前提---------------------------------------------------------------------------------

启动zookeeper集群

启动kafka集群

-------------------------------------------------------------------------------------------------------------------------------------------------

1、在kafka下创建一个“sparkStreamingOnKafkaReceive”的topic

root@master:/usr/local/kafka# bin/kafka-topics.sh --create --zookeeper master:2181,worker1:2181,worker2:2181 --replication-factor 2 --partitions 1 --topic sparkStreamingOnKafkaReceive 
2、启动這个topic的producer

 bin/kafka-console-producer.sh --broker-list master:9092,worker1:9092,worker2:9092 --topic sparkStreamingOnKafkaReceive

3、运行sparkStream程序,程序如下:
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
import scala.collection._

object streamingOnKafkaReceive {
  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local[4]").setAppName("streamingOnKafkaReceive")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc,Seconds(6))
    ssc.checkpoint("/Res")

    val topic = immutable.Map("sparkStreamingOnKafkaReceive" -> 2)
    val lines = KafkaUtils.createStream(ssc, "Master:2181,Worker1:2181,Worker2:2181","MyStreamingGroup",topic).map(_._2)

    val words  = lines.flatMap(_.split(" "))

    val wordCount = words.map(x => (x,1)).reduceByKey(_+_)

    wordCount.print()

    ssc.start()
    ssc.awaitTermination()
	}
}
4、随便输入一些字符串,运行结果


实列2----DirectStream

import kafka.serializer.StringDecoder

import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._
import org.apache.spark.SparkConf


object DirectKafkaWordCount {
  def main(args: Array[String]) {
    if (args.length < 2) {
      System.err.println(s"""
                            |Usage: DirectKafkaWordCount <brokers> <topics>
                            |  <brokers> is a list of one or more Kafka brokers
                            |  <topics> is a list of one or more kafka topics to consume from
                            |
        """.stripMargin)
      System.exit(1)
    }



    val Array(brokers, topics) = args

    // Create context with 2 second batch interval
    val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(2))

    // Create direct kafka stream with brokers and topics
    val topicsSet = topics.split(",").toSet
    val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)
    val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
      ssc, kafkaParams, topicsSet)

    // Get the lines, split them into words, count the words and print
    val lines = messages.map(_._2)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
    wordCounts.print()

    // Start the computation
    ssc.start()
    ssc.awaitTermination()
  }
}
// scalastyle:on println



### 配置 Spark Streaming 使用 Kafka 数据源 在 Spark Streaming 中配置 Kafka 作为数据源涉及多个方面,包括环境准备、依赖设置以及具体的编程接口调用。 #### 环境与依赖设置 对于开发环境而言,确保使用的 Scala Spark 版本兼容于所选用的 Kafka 版本非常重要。例如,在构建项目时可以采用如下组合: - Scala 版本:2.11.12 - Spark Streaming 版本:2.2.1 或更高版本 - Kafka Broker 版本:0.8.2.1 及以上[^4] 这些版本的选择基于它们之间的良好兼容性稳定性考虑。 #### 编程接口调用 当一切就绪之后,可以通过 `KafkaUtils` 类来创建一个来自 Kafka 的输入 DStream。下面是一个简单的例子展示如何实现这一点: ```scala import org.apache.spark.streaming.kafka._ val kafkaStream = KafkaUtils.createStream( streamingContext, "localhost:2181", // Zookeeper Quorum 地址 "test-consumer-group", // 消费者组 ID Map("topic-name" -> 1) // 主题名称及其对应的分区数 ) ``` 上述代码片段展示了通过指定 ZooKeeper 连接地址、消费者组ID以及主题名消费线程数量来初始化一个 Kafka 输入流的方式[^1]。 另外值得注意的是,Spark Streaming 支持多种不同类型的 Kafka 接入方式,其中 Direct 方式提供了更高效的数据读取机制,并且不需要依赖 ZooKeeper 来跟踪偏移量。这种方式适用于 Kafka 0.10及以上版本[^3]。 #### 实现细节补充说明 除了基本的连接参数外,还可以根据实际需求调整其他选项,比如批量拉取消息的数量上限等。这有助于优化性能并满足特定应用场景下的要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值