Structured Streaming join 操作

原创

已于 2022-10-22 09:50:56 修改 · 971 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #scala

于 2022-10-22 09:45:18 首次发布

本文详细介绍了Apache Spark的Structured Streaming如何进行流-静态数据和流-流数据的Join操作，包括内连接和外连接，并通过示例展示了如何在不同场景下使用watermark机制来处理状态无限增长的问题。此外，还提到了Structured Streaming中不支持的一些操作，如多个聚合、limit等。

join 操作

Structured Streaming 支持 streaming DataSet/DataFrame 与静态的DataSet/DataFrame 进行 join, 也支持 streaming DataSet/DataFrame与另外一个streaming DataSet/DataFrame 进行 join.

join 的结果也是持续不断的生成, 类似于前面学习的 streaming 的聚合结果.

Stream-static Joins

模拟的静态数据:

lisi,male
zhiling,female
zs,male

模拟的流式数据:

lisi,20
zhiling,40
ww,30

内连接

import org.apache.spark.sql.streaming.Trigger
import org.apache.spark.sql.{
   
   DataFrame, SparkSession}

object StreamingStatic {
   
   
    def main(args: Array[String]): Unit = {
   
   
        val spark: SparkSession = SparkSession
            .builder()
            .master("local[*]")
            .appName("StreamingStatic")
            .getOrCreate()
        import spark.implicits._

        // 1. 静态 df
        val arr = Array(("lisi", "male"), ("zhiling", "female"), ("zs", "male"));
        var staticDF: DataFrame = spark.sparkContext.parallelize(arr).toDF("name", "sex")

        // 2. 流式 df
        val lines: DataFrame = spark.readStream
            .format("socket")
            .option("host", "localhost")
            .option("port", 10000)
            .load()
        val streamDF: DataFrame = lines.as[String].map(line => {
   
   
            val arr = line.split(",")
            (arr(0), arr(1).toInt)
        }).toDF("name", "age")

        // 3. join   等值内连接  a.name=b.name
        val joinResult: DataFrame = streamDF.join(staticDF, "name")  // 或者传seq("name")

        // 4. 输出
        joinResult.writeStream
            .outputMode("append")
            .format("console")
            .start
            .awaitTermination()

    }
}
+-------+---+------+
|   name|age|   sex|
+-------+---+------+
|zhiling| 40|female|
|   lisi| 20|  male|
+-------+---+------+

外连接

val joinResult: DataFrame = streamDF.join(staticDF, Seq("name"), "left") // 流在那边写那边
+-------+---+------+
|   name|age|   sex

最低0.47元/天解锁文章