Pyspark: Append output mode not supported when there are streaming aggregations on streaming

最新推荐文章于 2024-11-08 12:14:57 发布

原创最新推荐文章于 2024-11-08 12:14:57 发布 · 2.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pyspark #dataframe #withwatermark

PySpark学习日志专栏收录该内容

40 篇文章

订阅专栏

本文详细解析了在使用Apache Spark进行流式数据处理时遇到的关于Watermark的问题，特别是当尝试在流式DataFrame上进行聚合操作并使用Append输出模式时出现的错误。文章通过实例代码展示了如何正确使用Watermark来避免此类错误，强调了直接引用带有Watermark的dataset字段的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用withwatermark时报错

An error occurred while calling o2837.start.
: org.apache.spark.sql.AnalysisException: Append output mode not supported when there are streaming aggregations on streaming DataFrames/DataSets without watermark;;

就是Append输出模式不能用在aggregation中，但是使用watermark应该可以使用append 模式的