实时数仓:美团点评Flink的实时数仓应用分享

本文分享了美团点评如何使用Flink建设实时数仓,旨在解决传统数仓时效性低的问题。文章介绍了实时数仓的建设目的,包括解决历史数据时效性和适用于实时OLAP分析等场景。并详细阐述了如何通过Flink构建实时数仓,包括概念映射、整体架构、ODS层、DW层、维度数据建设和汇总层的建设要点。此外,还探讨了仓库质量保证,如元数据和血缘管理以及数据质量验证的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


一、实时数仓建设目的

1. 解决传统数仓的问题

实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从传统的经验来讲,我们认为数仓有一个很重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。

但实时处理技术,又是强调当前处理状态的一门技术,所以我们认为这两个相对对立的方案重叠在一起的时候,它注定不是用来解决一个比较广泛问题的一种方案。于是,我们把实时数仓建设的目的定位为解决由于传统数据仓库数据时效性低解决不了的问题。

由于这个特点,我们给定了两个原则:

  • 传统数仓能解决的问题,实时数仓就不解决了。比如上个月的一些历史的统计,这些数据是不会用实时数仓来建设的。
  • 问题本身就不太适合用数仓来解决,也不用实时数仓解决。比如业务性很强的需求,或者是对时效性要求特别高的需求。这些需求我们也不建议通过实时数仓这种方式来进行解决。

当然为了让我们整个系统看起来像是一个数仓,我们还是给自己提了一些要求的。这个要求其实跟我们建立离线数仓的要求是一样的,首先实时的数仓是需要面向主题的,然后具有集成性,并且保证相对稳定。

离线数仓和实时数仓的区别在于离线数据仓库是一个保存历史累积的数据,而我们在建设实时数仓的时候,我们只保留上一次批处理到当前的数据。这个说法非常的拗口,但是实际上操作起来还是蛮轻松的。

通常来讲解决方案是保留大概三天的数据,因为保留三天的数据的话,可以稳定地保证两天完整的数据,这样就能保证,在批处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Freedom3568

技术域不存在英雄主义,不进则退

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值