Spark Streaming接收kafka数据，输出到HBase

最新推荐文章于 2025-07-14 13:19:09 发布

原创

最新推荐文章于 2025-07-14 13:19:09 发布 · 1.5w 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hbase #kafka-消息发布与订阅

该博客详细介绍了如何使用Spark Streaming从Kafka获取数据，通过SparkSQL进行wordcount和topN处理，然后将结果存储到HBase。内容包括Kafka生产者模拟数据生成，Spark Streaming的配置，数据写入HBase的两种方式，以及程序的运行过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求

Kafka + SparkStreaming + SparkSQL + HBase
输出TOP5的排名结果
排名作为Rowkey，word和count作为Column

实现

创建kafka生产者模拟随机生产数据

object producer {
  def main(args: Array[String]): Unit = {
    val topic ="words"
    val brokers ="master:9092,slave1:9092,slave2:9092"
    val prop=new Properties()
    prop.put("metadata.broker.list",brokers)
    prop.put("serializer.class", "kafka.serializer.StringEncoder")

    val kafkaConfig=new ProducerConfig(prop)
    val producer=new Producer[String,String](kafkaConfig)

    val content:Array[String]=new Array[String](5)
    content(0)="kafka kafka produce"
    content(1)="kafka produce message"
    content(2)="hello world hello"
    content(3)="wordcount topK topK"
    content(4)="hbase spark kafka"
    while (true){
      val i=(math.random*5).toInt
      producer.send(new KeyedMessage[String,String](topic,content(i)))
      println(content(i))
      Thread.sleep(200)
    }
  }
}

创建spark streaming

val conf = new SparkConf().setMaster("local[2]").setAppName("Networkcount")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(1))

配置kafka，通过KafkaUtils.createDirectStream读取kafka传递过来的数据