一、Spark Streaming
Spark Streaming 是核心Spark API的扩展,可以实现数据流的可伸缩,高吞吐量,容错流处理。可以接Kafka、Flume、Kinesis(亚马逊的流处理平台),或者TCP sockets,
并且可以使用复杂的高级函数(Map、Reduce、Join和Window)来处理数据。完成后可以讲数据发送到文件系统中、数据库、实时Dashboard。除此之外还可以基于流式处理继续做机器学习和图像处理。
在内部机制中,它的工作方式是接收实时的输入数据流,并将数据分成批次处理,然后由Spark引擎进行处理,生成最终的结果流,
Spark Streaming提供了discretized stream 或者DStream的高级高级抽象,它表示连续的数据流。