Spark学习笔记（Structure Streaming）

最新推荐文章于 2024-01-22 20:47:21 发布

原创

最新推荐文章于 2024-01-22 20:47:21 发布 · 532 阅读

0 ·

CC 4.0 BY-SA版权

这篇博客主要探讨了Spark的Structure Streaming特性，包括其如何在现有DataFrame基础上处理新数据，介绍了微批处理和持续处理两种模式。微批处理涉及先将数据写入日志，而持续处理则采用异步方式。文章还暗示了操作步骤，指导读者如何启动相关流程。

相当于在旧的dataframe上并上新的数据

微批处理：先写入日志

持续处理：异步处理

操作步骤

# 1.导入pyspark模块
From pyspark.sql import SparkSession
From pyspark.sql.functions import split
From pyspark.sql.functions import explode

# 2.创建sparksession对象
if __name__ =='__main__':
   spark = SparkSession\
           .builder\
           .appName("StructuredNetworkWordCount")\
           .getOrCreate()
spark.sparkContext.setLogLevel('WARN')

# 3.创建输入源
lines = spark\
        .readStream\
        .format('socket')\
        .option('host','localhost')\
        .option('port','9999')\
        .load()

# 4.定义流计算过程
 word  = lines.select(
       explode(
           split(lines.value,'')
           ).alias('word')
       )
 wordCounts = words.groupBy('word').count()


# 5.启动流计算并