kafka 整合 spark streaming 实例

本文详细介绍了如何搭建Zookeeper集群,配置Kafka主题,使用Spark Streaming进行实时数据处理。通过具体步骤,展示了从数据生产到消费的全过程,包括打包Spark程序、启动Spark Streaming应用及验证结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1,启动zk集群(如何搭建不解释,之前文章有详解)

在每台机器上执行启动命令:

bin/kafka-server-start.sh config/server.properties

2,创建kafka的 topic话题 (如何搭建kafka不解释,之前文章有详解)

bin/kafka-topics.sh --create --zookeeper 192.168.2.201:2181 --replication-factor 1 --partitions 1 --topic wordcount

3,#启动一个生产者发送消息
bin/kafka-console-producer.sh --broker-list 192.168.2.201:9092 --topic wordcount 

4,将spark程序打包,放到虚拟机上

package cn.itcast.spark.day5

import org.apache.spark.storage.StorageLevel
import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

 
object KafkaWordCount {

  val updateFunc = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {
    //iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse(0)).map(x=>(it._1,x)))
    iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(i => (x, i)) }
  }


  def main(args: Array[String]) {
   // LoggerLevels.setStreamingLogLevels()
   // val Array(zkQuorum, group, topics, numThreads) = args 本地  可以idea  edit_configuration 中的argments中按照空格分隔输入
    val sparkConf = new SparkConf().setAppName("KafkaWordCount")//.setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))
    ssc.checkpoint("c://ck2")
    //"alog-2016-04-16,alog-2016-04-17,alog-2016-04-18"
    //"Array((alog-2016-04-16, 2), (alog-2016-04-17, 2), (alog-2016-04-18, 2))"
   // val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
    val topicMap = args(2).split(",").map((_, args(3).toInt)).toMap
    val data = KafkaUtils.createStream(ssc, args(0), args(1), topicMap, StorageLevel.MEMORY_AND_DISK_SER)
    val words = data.map(_._2).flatMap(_.split(" "))
    val wordCounts = words.map((_, 1)).updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
    ssc.start()
    ssc.awaitTermination()
  }
}

5,启动spark-streaming应用程序

bin/spark-submit --class cn.itcast.spark.UrlCount --master spark://weekend01:7077 --executor-memory 1G --total-executor-cores 2 /home/bigdata/SparkDemo-1.0.jar weekend01:2181,weekend02:2181,weekend03:2181 group1 wordcount 2

6,在kafka生产者输入数据 

a a a a b b b c c d

7,  在spark程序输出界面查看是否获取到结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值