SparkStreaming中WAL容错机制

最新推荐文章于 2025-05-13 23:20:32 发布

原创最新推荐文章于 2025-05-13 23:20:32 发布 · 401 阅读

CC 4.0 BY-SA版权

文章标签：

7 篇文章

订阅专栏

本文深入解析了Spark Streaming中WAL（Write-Ahead Logging）的工作原理，包括其在数据流处理中的作用、配置方法及故障恢复流程。WAL作为预写日志系统，在Spark Streaming中起到关键的容错和数据一致性保障作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 什么是WAL？
wal（write ahead logging）预写日志系统。就是提前备份元数据信息和数据。
总体上来看：
WAL系统是一个存储系统，它可以存储和接受数据。
有时间属性和索引属性。
看源码介绍:
在这里插入图片描述

在这里插入图片描述

表示接受数据，接受器把数据流打包成块，存储在Excutor内存中，如果开启了WAL，将会把数据写入到处在容错文件系统的日志文件中
表示提醒Driver将接受到的数据块的元信息发送给Driver中的StreamingContext，这些元数据信息包括Executor内存中的数据块的引用ID和日志文件中数据块的偏移信息。
表示处理数据，每一个批批处理间隔，StreammingContext使用块信息生成RDDJobs，SparkContext执行这些Job用于处理Excutor内存中的数据。
表示做这些计算的checkpoint，以便于恢复。流式处理会周期性的通过检查点设置保存到文件中。

在这里插入图片描述

启动WAL需要做如下配置：

给StreamingContext设置Checkpoint目录，该目录必须是Hadoop支持的文件系统，用来保存WAL和做Streaming的checkpoint。显然，WAL也需要Checkpoint。
将spark。streaming.receiver.writeAheadLog.enable 设置为true。

以上是从原理角度解释WAL在sparkstreming中的应用。
从源码角度剖析：https://blog.youkuaiyun.com/andyshar/article/details/52143850