【Flink流式计算框架】:Flink维表join

本文介绍了Flink常见的四种维表Join方式,包括预加载维表、热存储维表、广播维表和Temporal table function join。详细阐述了每种方式的实现方法、优缺点,如预加载维表实现简单但适合小数据量,热存储维表不受内存限制但读取有延迟等,还对几种方式进行了对比。

前言

Flink常见的维表Join方式有四种:

  1. 预加载维表
  2. 热存储维表
  3. 广播维表
  4. Temporal table function join

1.预加载维表

通过定义一个类实现RichMapFunction,在open()中读取维表数据加载到内存中,在map()方法中与维表数据进行关联。RichMapFunction中open方法里加载维表数据到内存的方式特点如下:

  • 优点:实现简单
  • 缺点:因为数据存于内存,所以只适合小数据量并且维表数据更新频率不高的情况下。虽然可以在open中定义一个定时器定时更新维表,但是还是存在维表更新不及时的情况。
object JoinDemo {

  def main(args: Array[String]): Unit = {

    // 创建执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)

    // 1. 从集合中读取数据
    val dataList = env.socketTextStream("192.168.72.111", 8888)

    val result = dataList.map(data => {
      val arr = data.split(",")
      User(arr(0).toInt, arr(1).toInt)
    }).map(new MyMapperFunction)
    result.print()
    env.execute("111")
  }
}

class MyMapperFunction extends RichMapFunction[User, result] {

  var dim =  mutable.HashMap(1->"北京",2->"上海",3->"广州",4->"深圳")

  override def open(parameters: Configuration): Unit = {
    dim += (5->"武汉")
  }

  override def map(value: User): result = {
    if(dim.contains(value.cityId)){
      result(value.id,value.cityId,dim.get(value.cityId).getOrElse(""))
    }else{
      result(value.id,value.cityId,null)
    }
  }

}

2.热存储维表

这种方式是将维表数据存储在Redis、HBase、MySQL等外部存储中,实时流在关联维表数据的时候实时去外部存储中查询,这种方式特点如下:

  • 优点:维度数据量不受内存限制,可以存储很大的数据量。
  • 缺点:因为维表数据在外部存储中,读取速度受制于外部存储的读取速度;另外维表的同步也有延迟。

2.1使用cache来减轻访问压力

在这里使用guava Cache,来存储一部分常访问的维表数据,以减少访问外部系统的次数。

public class JoinDemo2 {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStream<Tuple2<Integer, Integer>> textStream = env.socketTextStream("192.168.72.111", 8888, "\n")
                .map(p -> {
                    //输入格式为:userId,1000,分别是用户Id和城市编号
                    String[] list = p.split(",");
                    return new Tuple2<Integer, Integer>(Integer.valueOf(list[0]), Integer.valueOf(list[1]));
                })
                .returns(new TypeHint<Tuple2<Integer, Integer>>() {
                });
        DataStream<Tuple3<Integer, Integer, String>> result = textStream.map(new MapJoinDemo1());
        result.print();
        env.execute("joinDemo2");
    }

    static class MapJoinDemo1 extends RichMapFunction<Tuple2<Integer, Integer>, Tuple3<Integer, Integer, String>> {
        LoadingCache<Integer, String> dim;

        @Override
        public void open(Configuration parameters) throws Exception {
            //使用google
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值