Spark Streaming与大数据处理核心-优快云博客

本文深入探讨了Spark Streaming在大数据处理场景中的应用，重点介绍了其数据持久化策略、序列化方式、窗口操作合法参数设置、任务执行机制及数据丢失风险，并详细解析了Spark Streaming与Storm运行模型的区别。

1 . 假如数据源来自网络，数据默认会在几个node的内存中缓存住。

•   A. 1
•   B. 2
•   C. 3

选B
    当数据源来自于网络时（例如通过Kafka、Flume、sockets等等），默认的持久化策略是将数据保存在两台机器上，这也是为了容错性而设计的。

2 . Spark Streaming默认持久化的级别是什么？

•   A. 内存+序列化
•   B. 内存+非序列化
•   C. 磁盘+序列化
•   D. 磁盘+非序列化
选A
    Spark Streaming默认将接收到的数据序列化后存储以减少内存的使用。但序列化和反序列化需要更多的CPU时间，因此更加高效的序列化方式（Kryo）和自定义的序列化接口可以更高效地使用CPU。

3 . 假设batchDuration已经设置为2秒，那么在做window操作的时候，下列哪些slide interval的设置是合法的？

4 . Spark Streaming最后还是通过Spark来执行任务的?