Spark每日半小时（34）——Spark Streaming：概览、示例

最新推荐文章于 2024-04-30 07:14:08 发布

翻译最新推荐文章于 2024-04-30 07:14:08 发布 · 313 阅读

Spark每日半小时专栏收录该内容

38 篇文章

订阅专栏

概览

Spark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。数据可以从许多来源（如Kafka，Flume，Kinesis或TCP Socket）中提取，并且可以使用以高级函数表示的复杂算法进行map处理，例如reduce，join和window。最后，处理后的数据可以推送到文件系统，数据库和实时仪表盘。实际上，我们可以在数据流上应用Spark和机器学习和图形处理算法。

Spark Streaming

在内部，它的工作原理如下。Spark Streaming接收实时输入数据流并将数据分成批处理，然后由Spark引擎处理以批量生成最终结果流。

Spark Streaming

Spark Streaming提供称为离散流或DStream的高级抽象，表示连续的数据流。DStream可以从来自Kafka，Flume和Kinesis等源的输入数据流创建，也可以通过在其他DStream上应用高级操作来创建。在内部，DStream表示为一系列RDD。

接下来我会展示如何使用DStream开始编写Spark Streaming程序。我们这里使用Java编写Spark Streaming程序。

示例

在我们详细介绍如何编写自己的Spark Streaming程序之前，让我们快速、简单的了解一下Spark Streaming程序是什么样的。假设我们想要计算从TCP Socket上监听的数据服务器接收的文本数据中的字数。

首先，我们创建一个JavaStreamingContext对象，它是所有流功能的主要入口点。我们使用两个执行线程创建一个本地StreamingContext，批处理间隔为1秒。

import org.apache.spark.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import scala.Tuple2;

// Create a local StreamingContext with two working thread and batch interval of 1 second
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount");
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));

使用此Context，我们可以创建一个DStream来表示来自TCP源的流数据，指定为主机名（例如localhost）和端口（例如9999）。

// Create a DStream that will connect to hostname:port, like localhost:9999
JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999);

此lines DStream表示将从数据服务器接收的数据流。此流中的每条记录都是一行文本。然后，我们想要空格分割为单词。

// Split each line into words
JavaDStream<String> words = lines.flatMap(x -> Arrays.asList(x.split(" ")).iterator());

flatMap是一个DStream操作，它通过从源DStream中的每个记录生成多个新纪录来创建新的DStream。在这种情况下，每行将被分成多个单词，单词流表示为words DStream。请注意，Spark使用FlatMapFunction对象定义了转换。Java API中由许多这样的便利类可以帮助定义DStream转换。

接下来，我们要计算这些单词。

// Count each word in each batch
JavaPairDStream<String, Integer> pairs = words.mapToPair(s -> new Tuple2<>(s, 1));
JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey((i1, i2) -> i1 + i2);

// Print the first ten elements of each RDD generated in this DStream to the console
wordCounts.print();

使用PairFunction对象将words DStream进一步映射（一对一转换）到（word，1）对的DStream。然后，使用Function2对象将其缩小以获得每批数据中的单词频率。最后，wordCounts.print()将打印每秒生成的一些计数。

请注意，执行这些行时，Spark Streaming仅设置它在启动后将执行的计算，并且尚未启动实际处理。要在设置完成所有转换后开始处理，我们最终调用start方法。

jssc.start();              // Start the computation
jssc.awaitTermination();   // Wait for the computation to terminate