SparkStreaming从Kafka中读取数据，设置检查点，处理数据后，并将结果存到Redis中，并实现执行优化

最新推荐文章于 2025-05-13 23:20:32 发布

夏天-.-

最新推荐文章于 2025-05-13 23:20:32 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/yhquser/article/details/99242207

本文介绍了如何使用SparkStreaming从Kafka直接读取数据，通过设置检查点实现故障恢复。数据经过处理后，利用updateStateByKey进行累加统计，最终将结果存储到Redis中。同时，针对代码进行了优化，只输出有数据更新的结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实现思路

1.第一步获取StreamingContext对象，因为要使用检查点恢复数据，所以不能使用new StreamingContext的方法获取对象，要使用StreamingContext.getOrCreate建立对象
2.创建StreamingContext对象，使用了贷出模式 ——贷出函数的方式来创建
3.从Kafka的生产者端读取数据进行分析
4.读取数据的方式采用Direct方式读取数据
5.处理读取到的数据，获取需要的值
6.调用updateStateByKey实时累加统计函数，进行累加统计
7.将结果打印到控制台，并将数据存放到Redis中

具体代码实现

import com.huadian.bigdata.jedis.JedisPoolUtil
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{
   
   Seconds, StreamingContext}

object G_RedisOrderTotalStreaming {
   
   
  //检查点目录
  val CHECK_POINT_PATH = "file:///E:\\JavaWork\\20190811\\test5"
  //Redis使用Hash存放数据
  val REDIS_KEY_ORDER_TOTAL_PRICE = "orders:total:price"
  def main(args: Array[String]): Unit = {
   
   
    /**
      * 先去查看检查点，
      * createFunc：第一次运行SparkStreaming应用的时候才会执行，才会创建StreamingContext
      */
    val ssc: StreamingContext = StreamingContext.getOrCreate(
      CHECK_POINT_PATH,
      createFunc
    )
    //设置日志级别
    ssc.sparkContext.setLogLevel("WARN")
    ssc.start()
    ssc.awaitTermination()
    //stop(stopSparkContext: Boolean, stopGracefully: Boolean)
    ssc