1 . 假如数据源来自网络,数据默认会在几个node的内存中缓存住。
• A. 1
• B. 2
• C. 3
选B
当数据源来自于网络时(例如通过Kafka、Flume、sockets等等),默认的持久化策略是将数据保存在两台机器上,这也是为了容错性而设计的。
2 . Spark Streaming默认持久化的级别是什么?
• A. 内存+序列化
• B. 内存+非序列化
• C. 磁盘+序列化
• D. 磁盘+非序列化
选A
Spark Streaming默认将接收到的数据序列化后存储以减少内存的使用。但序列化和反序列化需要更多的CPU时间,因此更加高效的序列化方式(Kryo)和自定义的序列化接口可以更高效地使用CPU。
3 . 假设batchDuration已经设置为2秒,那么在做window操作的时候,下列哪些slide interval的设置是合法的?
4 . Spark Streaming最后还是通过Spark来执行任务的?
正确
5 . Spark Streaming 和 Storm的运行模型是一样的?
错误
6 . Spark Streaming一定不会有数据丢失?
错误
7 . RDD cache默认的StorageLevel级别是什么?
本文深入探讨了Spark Streaming在大数据处理场景中的应用,重点介绍了其数据持久化策略、序列化方式、窗口操作合法参数设置、任务执行机制及数据丢失风险,并详细解析了Spark Streaming与Storm运行模型的区别。

被折叠的 条评论
为什么被折叠?



