广播变量*
设置广播变量
在某个需要用到该广播变量的算子后调用withBroadcastSet(var1, var2)进行设置,var1为需要广播变量
的变量名,var2是自定义变量名,为String类型。注意,被广播的变量只能为DataSet类型,不能为
List、Int、String等类型。
获取广播变量
创建该算子对应的富函数类,例如map函数的富函数类是RichMapFunction,该类有两个构造参数,第
一个参数为算子输入数据类型,第二个参数为算子输出数据类型。首先创建一个Traversable[]接口用于
接收广播变量并初始化为空,接收类型与算子输入数据类型相对应;然后重写open函数,通过
getRuntimeContext.getBroadcastVariable获取到广播变量,var即为设置广播变量时的自定义变量
名,类型为String,open函数在算子生命周期的初始化阶段便会调用;最后在map方法中对获取到的广
播变量进行访问及其它操作。
注意:只有在某个Operator中使用到不属于该Operator的DataSet时才需要广播变量,在iterate内部可
以将某个DataSet直接作为起始节点,不需要使用广播变量
再次我写了两个例子
下面附上Scala代码
object DataSetBroadcastApp {
//TODO 广播变量
def main(args: Array[String]): Unit = {
val env = ExecutionEnvironment.getExecutionEnvironment
broadcast(env)
}
def broadcast(env:ExecutionEnvironment): Unit ={
//TODO 创建两个元素
val ds1 = env.fromElements("1", "2", "3", "4", "5")
val ds2 = env.fromElements