相当于在旧的dataframe上并上新的数据
微批处理:先写入日志
持续处理:异步处理
操作步骤
# 1.导入pyspark模块
From pyspark.sql import SparkSession
From pyspark.sql.functions import split
From pyspark.sql.functions import explode
# 2.创建sparksession对象
if __name__ =='__main__':
spark = SparkSession\
.builder\
.appName("StructuredNetworkWordCount")\
.getOrCreate()
spark.sparkContext.setLogLevel('WARN')
# 3.创建输入源
lines = spark\
.readStream\
.format('socket')\
.option('host','localhost')\
.option('port','9999')\
.load()
# 4.定义流计算过程
word = lines.select(
explode(
split(lines.value,'')
).alias('word')
)
wordCounts = words.groupBy('word').count()
# 5.启动流计算并

这篇博客主要探讨了Spark的Structure Streaming特性,包括其如何在现有DataFrame基础上处理新数据,介绍了微批处理和持续处理两种模式。微批处理涉及先将数据写入日志,而持续处理则采用异步方式。文章还暗示了操作步骤,指导读者如何启动相关流程。
最低0.47元/天 解锁文章
972

被折叠的 条评论
为什么被折叠?



