零、本讲学习目标
- 了解Spark Streaming的基本概念
- 了解Spark Streaming的使用场景
- 掌握Spark Streaming的工作原理
一、Spark Streaming概述
(一)什么是Spark Streaming
- Spark Streaming是Spark Core API(Spark RDD)的扩展,支持对实时数据流进行可伸缩、高吞吐量及容错处理。数据可以从Kafka、Flume、Kinesis或TCP Socket等多种来源获取,并且可以使用复杂的算法处理数据,这些算法由map()、reduce()、join()和window()等高级函数表示。处理后的数据可以推送到文件系统、数据库等存储系统。事实上,可以将Spark的机器学习和图形处理算法应用于数据流。
(二)Sparing Streaming的主要优点
- 使用Spark Streaming可以很容易地构建可伸缩的、容错的流应用程序。