
数仓
山高水长~
这个作者很懒,什么都没留下…
展开
-
数仓分层
数仓在不同业务中中有不同的分层方式,针对日志型数仓,一般会有以下几层: ODS贴源层:这是外部数据入库的缓冲层,所有数据都是按照入库时间进行增量存储,一般这层只会存储最近7天或者最近一个月的数据 DWD明细层:这是按照入库时间进行分区的全量数据,每天从ODS层数据进行同步更新。这是数仓离线计算的数据基础,也是明细数据查询基础 EDW增量层:这是按照业务发生时间进行分区的增量数据,按照业务的要求,会...原创 2019-11-04 22:04:01 · 1130 阅读 · 0 评论 -
数仓脚本参数设置
在实际项目中,数仓的脚本基本上都是有分区字段的。在很多日志项目中,按照时间字段(天)分区比较常见。所以在脚本开发的过程中就会涉及到一些参数的设置,动态分区参数和合并小文件参数设置也是用的最多的。 动态分区参数设置 set hive.exec.dynamic.partition = true # 是否打开动态分区,默认false set hive.exec.dynamic.partition.mod...原创 2019-10-11 23:05:20 · 349 阅读 · 0 评论 -
知乎实时数仓架构及演进
转载自 https://blog.youkuaiyun.com/weixin_34064653/article/details/89089961 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈...转载 2019-06-02 18:18:14 · 1376 阅读 · 0 评论