Flink Transform1(基本转换算子与多流转换算子基础定理,相关代码)

本文详细介绍了Apache Flink的基本转换算子,包括Map、Flatmap和Filter,以及聚合操作如KeyBy、Reduce和滚动转换算子的使用方法。通过实例展示了如何在Flink数据流处理中进行字符串长度计算、按逗号分割、数据过滤以及分组聚合等操作,重点阐述了先分组后聚合的原则,并给出了Reduce函数的自定义实现。

基本转换算子

1、Map

//返回字符串长度
DataStream<Integer> mapStream = dataStream.map(new MapFunction<String, Integer>() {
            @Override
            public Integer map(String value) throws Exception {
                return value.length();
            }
        });

2、Flatmap

//按逗号分割字符串
DataStream<String> flatMapStream = dataStream.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> out) throws Exception {
                String[] fields = value.split(",");
                for(String field:fields){
                    out.collect(field);
                }
            }
        });

3、Filter

//按某一方式筛选过滤进行输出
DataStream<String> filterStream = dataStream.filter(new FilterFunction<String>() {
            @Override
            public boolean filter(String value) throws Exception {
                return value.startsWith("sensor_1");
            }
        });

聚合算子

DataStream里没有reduce和sum这类聚合操作的方法,因为Flink设计中,所有数据必须先分组才能做聚合操作。先keyBy得到KeyedStream,然后调用其reduce、sum等聚合操作方法。(先分组后聚合)

1、KeyBy

请添加图片描述
将DataStream ->KeyedStream:逻辑地将一个流拆分成不相交的分区(主要不是拆分成两个流),每个分区包含具有相同Key的元素,在内部以hash的形式实现的。

2、滚动转换算子

  • sum()
  • min()
  • minBy()
  • max()
  • maxBy()
    这些算子可以针对KeyedStream的每一个不同分区做聚合
DataStream<SensorReading> sensorStream = dataStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });
        // 先分组再聚合
        // 分组
        KeyedStream<SensorReading, String> keyedStream = sensorStream.keyBy("id");

        // 滚动聚合,max和maxBy区别在于,maxBy除了用于max比较的字段以外,其他字段也会更新成最新的,而max只有比较的字段更新,其他字段不变
        DataStream<SensorReading> resultStream = keyedStream.maxBy("temperature");

3、Reduce

​ Reduce适用于更加一般化的聚合操作场景。java中需要实现ReduceFunction函数式接口。

DataStream<SensorReading> dataStream = inputStream.map(line ->{
            String[] fields = value.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });
        //分组
        KeyedStream<SensorReading, String> keyedStream = dataStream.keyBy("id");

        //reduce 去最大温度值,以及当前最新时间戳
        keyedStream.reduce(new ReduceFunction<SensorReading>() {
            @Override
            public SensorReading reduce(SensorReading sensorReading, SensorReading t1) throws Exception {
                return new SensorReading(sensorReading.getID(), t1.getTimestamp(), Math.max(sensorReading.getTimestamp(), t1.getTimestamp()));
            }
        });

        keyedStream.reduce((curState, newData) -> {
            return new SensorReading(sensorReading.getID(), t1.getTimestamp(), Math.max(curState.getTimestamp(), newData.getTimestamp()));
        });
### Flink 常用转换算子列表及使用示例 #### 1. **映射 (Map)** `map()` 是一种一对一的操作,用于将输入流中的每个元素通过指定函数进行转换。通常适用于简单的数据结构变换。 ```java DataStream<Integer> input = ...; DataStream<String> mapped = input.map(value -> value.toString()); ``` 此操作会对 `input` 中的每个整数调用 `toString()` 方法,并返回一个新的 `DataStream` 实例[^1]。 --- #### 2. **扁平化映射 (FlatMap)** `flatMap()` 类似于 `map()`,但它允许将单个输入元素拆分为零个、一个或个输出元素。常用于复杂的数据结构调整场景。 ```java DataStream<String> lines = ...; DataStream<String> words = lines.flatMap((String line, Collector<String> out) -> { for (String word : line.split(" ")) { out.collect(word); } }); ``` 这里每行字符串被分割成单词序列,并逐一收集到输出流中。 --- #### 3. **过滤 (Filter)** `filter()` 用于筛选符合条件的记录,保留满足条件的元素。 ```java DataStream<Integer> numbers = ...; DataStream<Integer> filtered = numbers.filter(value -> value % 2 == 0); ``` 该例子仅保留偶数值[^2]。 --- #### 4. **分组 (KeyBy)** `keyBy()` 将数据按照某个键值进行分区,使得具有相同键的元素会被路由到同一并行任务中处理。 ```java DataStream<Tuple2<String, Integer>> data = ...; KeyedStream<Tuple2<String, Integer>, String> keyed = data.keyBy(value -> value.f0); ``` 此处按元组的第一个字段 (`f0`) 对数据进行了分组[^3]。 --- #### 5. **聚合 (Reduce)** `reduce()` 可以对一组具有相同 key 的元素执行累积运算,最终得到单一的结果。 ```java KeyedStream<Tuple2<String, Integer>, String> keyedData = ...; DataStream<Tuple2<String, Integer>> reduced = keyedData.reduce( (value1, value2) -> Tuple2.of(value1.f0, value1.f1 + value2.f1) ); ``` 这段代码实现了基于键值的累加操作。 --- #### 6. **联合 (Union)** `union()` 合并两个或条 `DataStream` 流,形成一条新流。注意它不会移除重复项。 ```java DataStream<Integer> stream1 = ...; DataStream<Integer> stream2 = ...; DataStream<Integer> unioned = stream1.union(stream2); ``` 两条独立流在此处合并为一条统一的新流[^1]。 --- #### 7. **连接 (Connect)** 不同于 `union()`,`connect()` 不会简单地混合两股流,而是保持各自的身份不变,以便后续协同处理。 ```java SingleOutputStreamOperator<Integer> streamA = ...; SingleOutputStreamOperator<Long> streamB = ...; ConnectedStreams<Integer, Long> connected = streamA.connect(streamB); ``` 这种设计适合需要跨不同类型数据协作的应用程序[^1]。 --- #### 8. **重新平衡 (Rebalance & Rescale)** - `rebalance()` 和 `rescale()` 都是用来调整数据分布的方式,但两者具体行为有所差异。 - `rebalance()` 平均分配给所有下游任务;而 `rescale()` 则只部分下游任务建立联系。 ```java // Rebalance Example DataStream<Integer> rebalanced = original.rebalance(); // Rescale Example DataStream<Integer> rescaled = original.rescale(); ``` 这些方法有助于优化负载均衡性能[^5]。 --- #### 9. **广播 (Broadcast)** `broadcast()` 把当前流的所有数据复制一份发往下游每一个平行实例。 ```java DataStream<Integer> broadcasted = original.broadcast(); ``` 这种方式特别适配全局配置更新等场合。 --- #### 10. **自定义分区 (PartitionCustom)** 当内置分区方式无法满足需求时,可借助 `partitionCustom()` 定义个性化规则。 ```java DataStream<Integer> customPartitioned = original.partitionCustom(new Partitioner<Integer>() { @Override public int partition(Integer key, int numPartitions) { return Math.abs(key.hashCode()) % numPartitions; } }, value -> value); ``` 上述片段展示了如何依据特定逻辑重定向流量[^5]。 --- #### 11. **窗口操作 (Window/WindowAll)** 虽然严格意义上不属于基础转换范畴,但作为扩展功能不可或缺: ```java KeyedStream<Tuple2<String, Integer>, String> keyed = ...; WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowed = keyed.window(TumblingEventTimeWindows.of(Time.seconds(5))); windowed.sum(1).print(); // 或其他窗口计算逻辑 ``` 这一步骤引入时间维度约束,从而支持更复杂的分析模式[^2]。 --- ### 总结说明 以上列举了 Flink 主要的转换算子类别及其典型应用场景。实际开发过程中应根据具体的业务目标灵活选用合适的工具组合来构建高效流水线解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值