spark streaming scala-updateStateByKey 进行key的累加统计

最新推荐文章于 2023-05-12 17:04:53 发布

贾红平

最新推荐文章于 2023-05-12 17:04:53 发布

阅读量579

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark Scala Streaming系列文章标签： spark streaming

本文链接：https://blog.youkuaiyun.com/qq_18603599/article/details/79970412

Spark Scala Streaming系列专栏收录该内容

4 篇文章

订阅专栏

本文介绍如何使用Apache Spark Streaming中的updateStateByKey功能来维护每个批次数据的状态，并通过一个示例展示了如何实现这一过程。该功能允许用户自定义状态更新逻辑，以便在连续的数据流中累积并更新状态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

updateStateByKey 解释:
以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加
在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步：
1) 定义状态：可以是任意数据类型
2) 定义状态更新函数：用一个函数指定如何使用先前的状态，从输入流中的新值更新状态。

对于有状态操作，要不断的把当前和历史的时间切片的RDD累加计算，随着时间的流失，计算的数据规模会变得越来越大。

具体看代码

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

/**
 * @author jhp
  *         spark streaming 保持key的状态统计
 */
object UpdateStateByKeyWordCount {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("UpdateStateByKeyWordCount")
    val ssc = new StreamingContext(conf, Seconds(5))
    ssc.checkpoint("hdfs://spark1:9000/wordcount_checkpoint")  
    
    val lines = ssc.socketTextStream("spark1", 9999)
    val words = lines.flatMap { _.split(" ") }   
    val pairs = words.map { word => (word, 1) }
    //前一次的key的数量和后一次key的数量的统计
    val wordCounts = pairs.updateStateByKey((values: Seq[Int], state: Option[Int]) => {
      var newValue = state.getOrElse(0)    
      for(value <- values) {
        newValue += value
      }
      Option(newValue)  
    })
    
    wordCounts.print()  
    
    ssc.start()
    ssc.awaitTermination()
  }
  
}