- 博客(5)
- 收藏
- 关注
原创 数仓建模流程
大体流程为***业务模型->概念模型->逻辑模型->物理模型***。业务建模解决业务层面的分解和程序化。就是和业务部门聊聊需求,熟悉一下业务。了解一下你们需要啥数据(指标和维度),你们有啥数据。这过程中,将业务部门的需求和实际情况记录汇总,依据此来大概确定未来数仓的技术选型和数据主题域搞清楚系统边界,确定好主题域,说白了就是确定这个数仓要干什么,不干什么。概念模型(领域建模)就是和业务部门把业务理清楚之后,根据现有数据整理出实体表都有什么,维度表都有什么,事件表都有什么,关系表都
2021-04-27 11:54:22
2150
原创 azkaban单机版编译部署及简单应用
单机部署##远程克隆azkaban代码git clone https://github.com/azkaban/azkaban.git##编译测试版安装包./gradlew build -x test##解压安装包,下载的版本不同,压缩包名字也会不同,自己修改tar -zxvf azkaban-solo-server/build/distributions/azkaban-solo-server-3.91.0-157-g71b0b7e.tar.gz -C /hdfs02/yqd/azkaban/
2021-04-13 16:45:24
498
1
原创 星形模型、雪花模型的对比
宽表、窄表、星形模型、雪花模型的联系与区别背景:公司目前数仓主要以大宽表为主,技术总监有意对数据模型进行优化,安排我了解星型模型和雪花模型,为之做准备。大宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大
2020-05-11 17:30:39
432
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人