
数仓
数据仓库
「miraitowa」
这个作者很懒,什么都没留下…
展开
-
大数据架构演进
1、数仓架构演变(场景驱动)1.1 经典数仓架构数据仓库概念是Inmon于1990年提出并给出了完整的建设方法1.2 离线大数据架构随着互联网时代来临,数据量暴增,开始使用大数据工具来代替经典数仓中的传统工具此时仅仅是工具的取代,架构上并没有根本的区别,可以把这个架构叫做离线大数据架构1.3 Lambda架构后来随着业务实时性要求的不断提高,人们开始在离线大数据架构基础上加了一个加速层,使用流处理技术直接完成那些实时性要求较高的指标计算,这便是Lambda架构1.4 Kappa架构再后来,原创 2020-11-16 19:53:57 · 1481 阅读 · 0 评论 -
数据同步策略的类型
数据同步策略的类型包括:全量表、增量表、新增及变化表全量表:存储完整的数据;数据量不大的表(有变化)增量表:存储新增加的数据;数据没有修改,但是会追加的情况新增及变化表:存储新增加的数据和变化的数据;数据量比较大,修改与增加特殊表:只需要存储一次1、全量同步策略每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区适用于表数据量不大,且每天既会有新数据插入,也会有旧数据的修改的场景例如:编码字典表、品牌表、商品三级分类、商品二级分类、商品一级分类、优惠规则表、活原创 2020-11-05 18:44:11 · 806 阅读 · 0 评论 -
数仓项目架构
1、系统数据流程设计为什么这里面需要kafka?1. 我们的业务有实时的业务,Spark可以和Flume做整合的2. 削峰平谷,处理一些高并发的场景3. 解耦,适合这种多场景对数据的多次使用埋点的数据是如何被采集的?采集的都是用户的行为,写一些代码(js,sdk),往后台发送,实时发送,每隔一段时间发送一个数据包(加密、压缩、转码,一次性发送多条)2、项目技术如何选型?技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算数据采集传输:Flum原创 2020-11-04 17:38:37 · 2758 阅读 · 5 评论 -
数据仓库进阶
一、数仓分层1.1 数仓分层ODS(Operation Data Store):原始数据层,关系建模,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理DWD(Data Warehouse Detail):明细数据层,维度建模,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化、脱敏等DWS(Data Warehouse Service):服务数据层,以DWD为基础,实际的工作中,需要算某个app,过去1天/周/月/季度/年,上线以来的新增用户…DWT(Data Wa原创 2020-11-04 11:13:43 · 704 阅读 · 0 评论 -
数据仓库入门
一、数据仓库概念1.1 名词解释DSS(decision-support system):决策支持系统ODS(operational data store):操作数据源(临时存储层)DW(data warehourse):数据仓库DM(data market):数据集市DWS(data warehourse service):服务数据层DWD(data warehourse detail):细节数据层DWB(data warehourse base):基础数据层OLAP(on-line a原创 2020-08-04 14:12:53 · 831 阅读 · 0 评论