对于基于窗口的操作,比如reduceByWIndow、reduceByKeyAndWindow,以及基于状态的操作,比如updateStateByKey,默认就隐式开启了持久化机制。即Spark Streaming默认就会将上述操作产生的Dstream中的数据缓存到内存长,不需要开发人员手动调用persist()方法
对于通过网络接收数据的输入流,比如socket、kafka、flume等,默认的持久化级别是将数据复制一份,以便容错,相当于是,用的是类似MEMORY_ONLY_SER_2。
这个与RDD不同的就是,默认的持久化级别,统一都是要序列化的
本文介绍了Spark Streaming中默认开启的持久化机制,包括基于窗口和状态的操作如何自动缓存到内存,以及通过网络接收数据的输入流如何进行数据复制以实现容错。
1182

被折叠的 条评论
为什么被折叠?



