Flink Dataflows 分区策略(3)

最新推荐文章于 2025-03-05 19:01:25 发布

原创最新推荐文章于 2025-03-05 19:01:25 发布 · 1.2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据

Flink 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了 Apache Flink 中常用的数据流分区策略，包括 shuffle、rebalance、rescale、broadcast、global、forward、keyBy 和自定义分区。每种策略都有其适用场景，并通过示例代码展示了具体应用。

一、分区策略

1.shuffle

场景：

增大分区、提高并行度、解决数据倾斜。
分区元素会随机均匀分发到下游分区，网络开销较大。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.shuffle.print();

console result：

在这里插入图片描述

2.rebalance

场景：

增大分区、提高并行度、解决数据倾斜。
轮询分区元素，均匀的将元素分发到下游分区，下游每个分区的数据比较均匀，在发生数据倾斜时非常有用，网络开销较大。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.rebalance.print();

console result：

在这里插入图片描述

3.rescale

场景：

减少分区、防止发生大量网络传输、不会发生全量的重分区。
轮询分区元素，将一个元素集合从上游分区发送给下游分区，发送单位是集合而不是一个个元素。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.process(xxx).setParallelism(2);
source.rescale.process(xxx).setParallelism(4);

console result：

在这里插入图片描述

4.broadcast

场景：

需要使用映射表，且映射表会经常发生变动的场景。
上游中每一个元素内容广播到下游每一个分区中。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.process(xxx).setParallelism(2);
source.broadcast.process(xxx).setParallelism(4);

console result：

在这里插入图片描述

5.global

场景：

并行度降为1。
上游分区的数据只发给下游的第一个分区。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxsourceFunction());
source.process(xxx).setParallelism(2);
source.global.process(xxx).setParallelism(4);

console result：

在这里插入图片描述

6.forward

场景：

一对一的数据分发，map、flatMap、filter等都是这种分区策略。
上游分区数据分发到下游对应分区中。

必须保证上下游分区数（并行度）一致，不然会抛出如下异常：
Forward partitioning does not allow change of parallelism

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.process(xxx).setParallelism(2);
source.forward.process(xxx).setParallelism(4);

7.keyBy

场景：

与业务场景匹配。
根据上游分区元素的Hash值与下游分区数取模计算出，将当前元素分发到下游哪一个分区。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.process(xxx).setParallelism(2);
source.keyBy(0).process(xxx).setParallelism(4);

8.PartitionCustom

场景：

通过自定义的分区器，来决定元素使如何从上游分区分发到下游分区。

demo：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
SingleOutputStreamOperator<BaseBO> source = env.addSource(new xxxSourceFunction());
source.process(xxx).setParallelism(2);
source.partitionCustom(new CustomPartitioner(), 0).process(xxx).setParallelism(4);

class customPartitioner implements Partitioner<Long>{
    @Override
    public int partition(Long aLong, int numPartitions) {
        return aLong.intValue() % numPartitions;
   }
}