
技术
文章平均质量分 74
haungtan07
这个作者很懒,什么都没留下…
展开
-
hive日期使用技巧
hive日期使用技巧原创 2022-10-25 10:06:22 · 3306 阅读 · 1 评论 -
数仓历史拉链表
关键字:数据仓库、极限存储、历史拉链表、更新使用这种方式即可以记录历史,而且最大程度的节省存储。这里简单介绍一下这种历史拉链表的更新方法。本文中假设:数据仓库中订单历史表的刷新频率为一天,当天更新前一天的增量数据; 如果一个订单在一天内有多次状态变化,则只会记录最后一个状态的历史; 订单状态包括三个:创建、支付、完成; 创建时间和修改时间只取到天,如果源订单表中没有状态修改时间,那么抽取增量就比较麻烦,需要有个机制来确保能抽取到每天的增量数据; 本文中的表和SQL都使用Hive的HQL语原创 2021-05-27 10:19:59 · 595 阅读 · 0 评论 -
flink1.11 实时数仓探索
线上使用的flink版本是1.8的版本,对flink-sql支持有限。2020年flink出来了1.11的稳定版本,一直没有机会使用。近期使用1.11版本进行了尝试。目前实时数仓架构我们目前ods-dw层是合并的,ods层格式化打宽之后,dwd层使用了异步io的方式进行了补维操作。dwd层数据落地是使用streamflieink的方式重写partition函数5分钟落地到hdfs.我们的dw层分区表的分区是通过调度提前一天加载好的,这样落地数据文件就可以直接查询。这样的问题点:原创 2021-05-27 09:52:43 · 459 阅读 · 0 评论