Overview
Spark Streaming是核心Spark API的扩展,可实现实时数据流的scalable,high-throughput,fault-tolerant。 数据可以从许多来sources(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理。 最后,处理后的数据可以推送到文件系统,数据库和实时dashboards。 实际上,您可以在数据流上应用Spark的机器学习和图形处理算法。
在内部,它的工作原理如下。 Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批量生成最终结果流。
Spark Streaming提供称为 Discretized Stream 或 DStream 的high-level,表示连续的 stream of data。 DStrea