
数据仓库
文章平均质量分 77
大数据学习僧
大数据从业者
项目经理背锅者
业务需求对接者
代码灵魂改造者
PPT熬夜设计者
展开
-
滴滴基于 Flink 的实时数仓建设实践
从数据架构图来看,顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构;比如 ODS 层,明细层,汇总层,乃至应用层,他们命名的模式可能都是一样的。但仔细比较不难发现,两者有很多区别:与离线数仓相比,实时数仓的层次更少一些 从目前建设离线数仓的经验来看,数仓的数据明细层内容会非常丰富,处理明细数据外一般还会包含轻度汇总层的概念,另外离线数仓中应用层数据在数仓内部,但实时数仓中,app 应用层数据已经落入应用系统的存储介质中,可以把该层与数仓的表分离。 应用层少建设的好处:实时处理数据的时候,转载 2022-01-21 17:40:52 · 389 阅读 · 0 评论 -
HiveSQL求用户连续到店购买天数以及与上次到店购买间隔天数
HSQL-需求:求用户连续到店购买天数以及与上次到店购买间隔天数Step 1:对原始数据进行聚合/去重Step 2:对用户进行分组排序Step 3:日期与序号进行减法运算Step 4:获取开始连续的日期以及连续天数Step 5:使用Hive中lead函数Step 1:对数据进行聚合/去重重点是理解解题思路1.对数据按天进行初步聚合或去重(因为一个用户可能在某天有多次购买行为)select id,order_date from TABLE_NAME where d='10' group by原创 2021-10-26 15:52:08 · 1741 阅读 · 0 评论 -
企业级大数据项目建设之数据仓库搭建与数据治理概况版
本文分为数据仓库建设和数据治理,篇幅比较长,耐心看完。原创 2021-08-11 16:44:07 · 1993 阅读 · 0 评论