Flink重分区算子解析 - StreamPartitioner

最新推荐文章于 2023-10-16 21:20:48 发布

原创

最新推荐文章于 2023-10-16 21:20:48 发布 · 1.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据 #java

一、背景说明

目前Flink（version：1.13）包含8个重分区算子，对应8个分区器（7个官方定义及1个自定义），均继承与父类StreamPartitioner。

RebalancePartitioner
RescalePartitioner
KeyGroupStreamPartitioner
GlobalPartitioner
ShufflePartitioner
ForwardPartitioner
CustomPartitionerWrapper
BroadcastPartitioner

二、各分区器说明

1. 概览图

在这里插入图片描述

2. RebalancePartitioner

Partitioner that distributes the data equally by cycling through the output channels.

rebalance()算子是真正意义上的轮询操作，上游数据轮询下发到下游算子，注意与broadcast()算子的区别，上图颜色点代表两者数据分发的区别。

private int nextChannelToSendTo;

// 下游channel选择器，第一个数据是随机选择下游其中一个channel
@Override
public void setup(int numberOfChannels) {
   
   
    super.setup(numberOfChannels);
    nextChannelToSendTo = ThreadLocalRandom.current().nextInt(numberOfChannels);
}
// 后续+1取模的方式开始轮询下发
@Override
public int selectChannel(SerializationDelegate<StreamRecord<T>> record) {
   
   
    nextChannelToSendTo = (nextChannelToSendTo + 1) % numberOfChannels;
    return nextChannelToSendTo;
}
// 分发模式为 ALL_TO_ALL
@Override
public boolean isPointwise() {
   
    return false; }

FLink 将任务的执行计划分为 StreamGraph–>JobGraph–>ExecutionGraph，其中的StreamingJobGraphGenerator类用以实现将StreamGraph转化为JobGraph，在该类中会调用分区器的isPointwise()方法实现分发模式的选择：POINTWISE / ALL_TO_ALL。

JobEdge jobEdge;
if (partitioner.isPointwise()) {
   
   
    jobEdge =
            downStreamVertex.connectNewDataSetAsInput(
                    headVertex, DistributionPattern.POINTWISE, resultPartitionType);
} else {
   
   
    jobEdge =
            downStreamVertex.connectNewDataSetAsInput(
                    headVertex, DistributionPattern.ALL_TO_ALL, resultPartitionType);
}