Flink1.11 有状态算子的使用

最新推荐文章于 2023-10-08 15:45:45 发布

原创最新推荐文章于 2023-10-08 15:45:45 发布 · 970 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#flink

Flink 专栏收录该内容

26 篇文章

订阅专栏

本文介绍了Apache Flink中如何在Java API中使用键控状态，重点讲解了ValueState、ReducingState、ListState和AggregatingState的区别，以及State TTL的概念，通过实例演示了配置和操作过程。

1.前言

时间：2020年11月29日

在Flink中所有算子（如map，flatmap，reduce等等）都可以是有状态的。用Scala写起来会有一些骚操作，比如使用lazy定义descriptor等。但是这里暂时不会讲到，本文以Java API为主。

有状态操作大致可以分为Key State（键控状态）和Operator State（算子状态），由于键控状态比较常用，本文会以键控状态为主进行总结。

状态算子跟状态后端有一定的关系（算子的状态是存在状态后端当中的，因此实际开发中可能需要先设置使用何种状态后端），之前写过一篇文章Flink1.11 状态后端说明及部分源码阅读有需要可以参考。

2.键控状态

既然是键控状态，首先一定要进行keyBy操作，将DataStream变成KeyedDataStream。然后才能使用键控状态。下面先使用ValueState的例子入门，然后详细说明。

2.1ValueState demo

package it.kenn.state;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.runtime.state.StateBackend;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class KeyedStateDemo {
    public static void main(String[] args) throws Exception {
        String backendPath = "hdfs://localhost:8020/flink/statebackend/fsState";
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(6);
        //设置状态后端为hdfs
        StateBackend stateBackend = new FsStateBackend(backendPath);
        env.setStateBackend(stateBackend);
        env.fromElements(Tuple2.of(1L, 3L), Tuple2.of(1L, 5L), Tuple2.of(1L, 7L), Tuple2.of(1L, 4L), Tuple2.of(1L, 2L))
                //进行keyBy操作
                .keyBy(value -> value.f0)
                //有状态的flatMap
                .flatMap(new CountWindowAverage())
                //简单的输出
                .print();
        env.execute();
    }
}

编写具体的flatmap函数

package it.kenn.state;

import org.apache.flink.api.common.functions.RichFlatMapFunction;
import org.apache.flink.api.common.state.ValueState;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.util.Collector;

/**
 * 下面是一个ValueState的例子
 */
//需要注意的是要使用RichFlatMapFunction，因为Rich抽象类里面有生命周期函数，比如下面要用到的open
public class CountWindowAverage extends RichFlatMapFunction<Tuple2<Long, Long>, Tuple2<Long, Long>> {
    private transient ValueState<Tuple2<Long, Long>> sum;

    @Override
    public void flatMap(Tuple2<Long, Long> input, Collector<Tuple2<Long, Long>> collector) throws Exception {
        //这里编写的是真正的业务代码，我们要做的是对传入的值进行累加，并记录有多少个值进行了累加
        Tuple2<Long, Long> currValue = sum.value();
        currValue.f0 += 1;
        currValue.f1 += input.f1;
        //更新状态
        sum.update(currValue);
        //计算平均值
        if (currValue.f0 >= 2) {
            collector.collect(new Tuple2<>(input.f0, currValue.f1 / currValue.f0));
            sum.clear();
        }
    }

    /**
     * 在open函数里面可以使用getRuntimeContext函数来getState,但在此之前需要定义ValueStateDescriptor
     * ValueStateDescriptor有三个参数，第一个为该state起名字，第二个定义该state的类型，第三个初始化值
     * @param parameters
     */
    @Override
    public void open(Configuration parameters) {
        ValueStateDescriptor<Tuple2<Long, Long>> descriptor = new ValueStateDescriptor<>(
                "average",
                TypeInformation.of(new TypeHint<Tuple2<Long, Long>>() {})
                ,new Tuple2<>(0L,0L)
        );
        //第一次调用的时候完成对ValueState初始化并得到初始值
        sum = getRuntimeContext().getState(descriptor);

    }
}

2.2ValueState使用总结

有些内容在上面例子的注释中已经讲过了，这里再总结一下。

1. 要使用键控状态，首先要执行keyBy操作，指定DataStream的键。但是这个键是一个虚拟的键，即指定字段中哪个字段当做键就可以了，不需要使用真正的键值数据结构（这个在spark中好像使用专门的数据结构的，可以翻一下验证）

2. 状态必须要通过RuntimeContext来获得，而RuntimeContext只能在RichFunction中才能得到（在Scala中可以定义为lazy类型不需要在RichFunction中得到，这里不讲），因此有状态的算子比如上面的flatmap必须继承Rich...Function。

3. 要得到一个状态句柄需要创建一个StateDescriptor，ValueState的StateDescriptor叫做ValueStateDescriptor。创建需要三个参数，上面例子中也解释过了。

4. 获取状态需要使用ValueState<T> getState(ValueStateDescriptor<T>)，需要注意的是，这里得到的是ValueState这个结构，并不是存储的状态值

5.得到结构以后就可以通过value()方法得到值了。更新状态值使用update()。清空状态值使用clear()方法。当然这是针对ValueState说的，其他类型的State（下一节说）获取、更新值还有一些区别

2.3键控状态分类

上面已经使用ValueState做了简单的入门，下面键控状态的分类。

2.3.1ValueState

获取ValueState：ValueState<T> getState(ValueStateDescriptor<T>)
得到、更新、清空值：value()方法、update(T)方法、clear()方法

2.3.2`ReducingState`

它保存一个值，这个值表示所有添加到该状态的汇总值。比如对某个值进行累加，那么存储的就是当前数据过来以后截止目前数据的累加值。需要注意的是，它的入参类型和返回值类型要完全一致。

获取ReducingState：ReducingState<T> getReducingState(ReducingStateDescriptor<T>)
得到、更新、清空值：

2.3.3`ListState`

它保存了一组值。

获取ListState：ListState<T> getListState(ListStateDescriptor<T>)
添加值：add(T)或者addAll()方法；得到Iterable：Iterable<T> get()；更新值：update(List<T>)。

2.3.4`AggregatingState`

与ReducingState最大的不同是它的入参和出参可以是不同的类型（从下面泛型中也可以看出来）

AggregatingState<IN, OUT> getAggregatingState(AggregatingStateDescriptor<IN, ACC, OUT>)

`2.3.5`MapState

它可以保存一个映射列表。可以向MapState中放入一个键值对数据。

获取MapState：MapState<UK, UV> getMapState(MapStateDescriptor<UK, UV>)
添加元素：put(UK, UV) 或者 putAll(Map<UK, UV>)；获取元素：get(UK)或者后面这三个方法entries(),、keys()、 values()跟Java基本API差不多不赘述；清空值clear()
如果MapState的键值本身是很复杂的类型，在创建的时候需要用TypeInformation。具体如下:

private static MapState<String, Tuple2<Long,String>> behaviorMapState;

    @Override
    public void open(Configuration parameters) throws Exception {
        behaviorMapState = getRuntimeContext().getMapState(new MapStateDescriptor<>
                        ("behaviorMapState", TypeInformation.of(new TypeHint<String>(){}),TypeInformation.of(new TypeHint<Tuple2<Long,String>>(){})));
    }

3.State TTL

随着时间的延续，算子要维护的状态可能非常多，对内存或者磁盘都有一定的压力，Flink设置了一种算子状态过期机制，可以让不再需要的状态在一段时间以后过期。如果对键控状态设置了过期时间，相应的状态会在一段时间以后被清除（不一定是过期以后立即被清除！）。

3.2Demo

package it.kenn.state;

import org.apache.flink.api.common.state.StateTtlConfig;
import org.apache.flink.api.common.state.ValueStateDescriptor;
import org.apache.flink.api.common.time.Time;

/**
 * 状态过期时间配置
 */
public class StateTTLDemo {
    public static void main(String[] args) {
        StateTtlConfig ttlConfig = StateTtlConfig
                //过期时间，必须的值
                .newBuilder(Time.seconds(10))
                //默认值，还可以是OnReadAndWrite
                .setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite)
                //配置如果状态已经过期了是否返回，下面的配置是说如果状态过期了就不返回了
                .setStateVisibility(StateTtlConfig.StateVisibility.NeverReturnExpired)
                .build();
        ValueStateDescriptor<String> text_state = new ValueStateDescriptor<>("text state", String.class);
        //为该状态指定过期配置
        text_state.enableTimeToLive(ttlConfig);
    }
}

上面是一个简单的TTL小demo。更详细的内容看官网吧。