Dstream转换

原创于 2025-06-04 09:26:13 发布 · 805 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #spark

大数据面试专栏收录该内容

183 篇文章

订阅专栏

DStream上的操作与RDD的类似，分为转换和输出两种，此外转换操作中还有一些比较特殊的原语，如：transform()以及各种Window相关的原语。

3.1 无状态转化操作

无状态转化操作：就是把RDD转化操作应用到DStream每个批次上，每个批次相互独立，自己算自己的。

3.1.1 常规无状态转化操作

DStream的部分无状态转化操作列在了下表中，都是DStream自己的API。

注意，只有JavaPairDStream<Key, Value>才能使用xxxByKey()类型的转换算子。

函数名称	目的	函数类型
map()	对DStream中的每个元素应用给定函数，返回由各元素输出的元素组成的DStream。	Function<in, out>
flatMap()	对DStream中的每个元素应用给定函数，返回由各元素输出的迭代器组成的DStream。	FlatMapFunction<in, out>
filter()	返回由给定DStream中通过筛选的元素组成的DStream	Function<in, Boolean>
mapToPair()	改变DStream的分区数	PairFunction<in, key, value>
reduceByKey()	将每个批次中键相同的记录规约。	Function2<in, in, in>
groupByKey()	将每个批次中的记录根据键分组。	ds.groupByKey()

需要记住的是，尽管这些函数看起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD批次组成，且无状态转化操作是分别应用到每个RDD(一个批次的数据)上的。

3.2 窗口操作

3.2.1 WindowOperations

Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Streaming的允许状态。所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。

窗口时长：计算内容的时间范围；
滑动步长：隔多久触发一次计算。

注意：这两者都必须为采集批次大小的整数倍。

如下图所示WordCount案例：窗口大小为批次的2倍，滑动步等于批次大小。

3.2.2 Window

1）基本语法：

window(windowLength, slideInterval): 基于对源DStream窗口的批次进行计算返回一个新的DStream。

2）需求：

统计WordCount：3秒一个批次，窗口12秒，滑步6秒。

3）代码编写：

package com.atguigu;

import org.apache.kafka.clients.consumer.ConsumerConfig;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Duration;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka010.ConsumerStrategies;

import org.apache.spark.streaming.kafka010.KafkaUtils;

import org.apache.spark.streaming.kafka010.LocationStrategies;

import scala.Tuple2;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.HashMap;

import java.util.Iterator;

public class Test02_Window {

public static void main(String[] args) throws InterruptedException {

// 创建流环境

JavaStreamingContext javaStreamingContext = new JavaStreamingContext("local[*]", "window", Duration.apply(3000));

// 创建配置参数

HashMap<String, Object> map = new HashMap<>();

map.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092,hadoop103:9092,hadoop104:9092");

map.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");

map.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");

map.put(ConsumerConfig.GROUP_ID_CONFIG,"atguigu");

map.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"latest");

// 需要消费的主题

ArrayList<String> strings = new ArrayList<>();

strings.add("topicA");

JavaInputDStream<ConsumerRecord<String, String>> directStream = KafkaUtils.createDirectStream(javaStreamingContext, LocationStrategies.PreferBrokers(), ConsumerStrategies.<String, String>Subscribe(strings,map));

JavaDStream<String> stringJavaDStream = directStream.flatMap(new FlatMapFunction<ConsumerRecord<String, String>, String>() {

@Override

public Iterator<String> call(ConsumerRecord<String, String> stringStringConsumerRecord) throws Exception {

String[] split = stringStringConsumerRecord.value().split(" ");

return Arrays.asList(split).iterator();

}

});

JavaPairDStream<String, Integer> javaPairDStream = stringJavaDStream.mapToPair(new PairFunction<String, String, Integer>() {

@Override

public Tuple2<String, Integer> call(String s) throws Exception {

return new Tuple2<>(s, 1);

}

});

JavaPairDStream<String, Integer> window = javaPairDStream.window(Duration.apply(12000), Duration.apply(6000));

window.reduceByKey(new Function2<Integer, Integer, Integer>() {

@Override

public Integer call(Integer v1, Integer v2) throws Exception {

return v1+v2;

}

}).print();

// 执行流的任务

javaStreamingContext.start();

javaStreamingContext.awaitTermination();

}

4）测试

[atguigu@hadoop102 ~]$ kafka-console-producer.sh --broker-list hadoop102:9092 --topic topicA

hello spark

5）如果有多批数据进入窗口，最终也会通过window操作变成统一的RDD处理。

3.2.3 reduceByKeyAndWindow

1）基本语法：

reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks])：当在一个(K,V)对的DStream上调用此函数，会返回一个新(K,V)对的DStream，此处通过对滑动窗口中批次数据使用reduce函数来整合每个key的value值。

2）需求：

统计WordCount：3秒一个批次，窗口12秒，滑步6秒。

3）代码编写：

package com.atguigu;

import org.apache.kafka.clients.consumer.ConsumerConfig;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Duration;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka010.ConsumerStrategies;

import org.apache.spark.streaming.kafka010.KafkaUtils;

import org.apache.spark.streaming.kafka010.LocationStrategies;

import scala.Tuple2;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.HashMap;

import java.util.Iterator;

public class Test03_ReduceByKeyAndWindow {

public static void main(String[] args) throws InterruptedException {

// 创建流环境

JavaStreamingContext javaStreamingContext = new JavaStreamingContext("local[*]", "window", Duration.apply(3000L));

// 创建配置参数

HashMap<String, Object> map = new HashMap<>();

map.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092,hadoop103:9092,hadoop104:9092");

map.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");

map.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");

map.put(ConsumerConfig.GROUP_ID_CONFIG,"atguigu");

map.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"latest");

// 需要消费的主题

ArrayList<String> strings = new ArrayList<>();

strings.add("topicA");

JavaDStream<String> stringJavaDStream = directStream.flatMap(new FlatMapFunction<ConsumerRecord<String, String>, String>() {

@Override

public Iterator<String> call(ConsumerRecord<String, String> stringStringConsumerRecord) throws Exception {

String[] split = stringStringConsumerRecord.value().split(" ");

return Arrays.asList(split).iterator();

}

});

JavaPairDStream<String, Integer> javaPairDStream = stringJavaDStream.mapToPair(new PairFunction<String, String, Integer>() {

@Override

public Tuple2<String, Integer> call(String s) throws Exception {

return new Tuple2<>(s, 1);

}

});

javaPairDStream.reduceByKeyAndWindow(new Function2<Integer, Integer, Integer>() {

@Override

public Integer call(Integer v1, Integer v2) throws Exception {

return v1 + v2;

}

},Duration.apply(12000L),Duration.apply(6000L)).print();

// 执行流的任务

javaStreamingContext.start();

javaStreamingContext.awaitTermination();

}

2）测试

[atguigu@hadoop102 ~]$ kafka-console-producer.sh --broker-list hadoop102:9092 --topic topicA

hello spark