
数仓分层架构
文章平均质量分 54
根据网上的各种数仓架构的案例分享及本人的一些思考,汇总整理,为自己及同仁们以后所用。
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
HIVE数据仓库分层
大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题。我们将数据模型分为三层:数据运营层( ODS )、数据仓库层(DW)和数据应用层(APP):ODS层存放的是接入的原始数据DW层是存放我们要重点设计的数据仓库中间层数据APP是面向业务定制的应用数据。“面向主题的”数据运营层,也叫ODS层,是最原创 2024-12-28 14:43:05 · 968 阅读 · 0 评论 -
大数据平台及数仓的通用架构和技术体系
一、大数据架构技术体系1 数据传输层Sqoop:支持RDBMS和HDFS之间的双向数据迁移,通常用于抽取业务数据库(比如MySQL、SQLServer、Oracle)的数据到HDFS.Cannal:阿里开源的数据同步工具,通过监听MySQL binlog,实现增量数据订阅和近实时同步。Flume:用于海量日志采集、聚合和传输,将产生的数据保存到HDFS或者HBase中。Flume + Kafka:满足实时流式日志的处理,后面再通过Spark Streaming等流式处理技术,可完成日志的实时解原创 2021-01-15 11:36:55 · 1685 阅读 · 0 评论 -
某垂直电商拍卖平台数仓架构及主题域划分
一、数仓架构1、贴源数据,添加时间戳2、将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。统一表及字段命名规范统一字段格式及度量集成整合数据,使数据清晰明了3、按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。这是OLAP的数据基础。事实表、宽表建设公共汇总建设4、现在已有系统数据基本都出自DWT\DWF多维分析数据出自DWF挖掘数据出自DWT、甚至ods数据仓库是为了支持复杂的分析和决策,数据挖掘是为了在海量的数据里面发掘出预原创 2021-01-19 19:01:16 · 2132 阅读 · 1 评论 -
值得借鉴和思考的若干数仓相关架构图
1、知乎实时数据分层架构2、较不常见的一种离线架构3、其他(待整理)原创 2020-06-11 10:56:25 · 365 阅读 · 0 评论 -
【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路
原文地址:https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B摘要:在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,原创 2016-07-22 14:42:32 · 3667 阅读 · 0 评论 -
关于目前某游戏直播平台数仓建设规划的思考
大数据平台etl:sqoop、dataX,及airflow;python串联sql。sqoop、dataX进行数据的抽取及传送;airflow进行调度;用python进行封装和编码。游戏直播公司的数据仓库分层设计:贴源设计的ODS层;主题设计的数据整合层;按需维度设计的集市层。贴源ODS层数据分为两大类,一类是来源于业务系统数据库、一类是来源于日志,包括系统access log日志及因业...原创 2018-08-02 19:38:43 · 1215 阅读 · 0 评论 -
关于目前某游戏直播平台数仓建设规划的思考2
环境说明:阿里云E-MapReduce,主要启用Hive工具作为数仓的载体,热数据存储在hdfs上,冷数据及规模数据存储在阿里云oss上。ETL采用python编码及封装HQL、sqoop、dataX,最后由airFlow统一进行调度。分层架构:结合传统行业及移动互联网行业的不同特点,及大数据平台下数仓建设的实际,分三层进行数仓的构建,分别是操作数据存储ODS层、数据仓库层DWH、集市数...原创 2019-02-20 14:31:26 · 900 阅读 · 1 评论 -
关于目前某游戏直播平台数仓建设规划的思考3
DWH层初始的想法是分主题后再按范式及维度进行建模,但今天跟一个同行【大搜车】聊到他们在这一层的做法是:先做基于明细级别的多维度宽表,这个宽表包含事务主键、维度、指标以及对应的属性字段数据,然后再进行按天的数据粒度汇总。现在回想起在苏宁的数仓做法,及另一前同事在天源迪科的数仓建模描述,也是大致按这种方式进行的。所以,综合考虑,可能要舍弃【思考2】中在DWH中两种建模方式的表述,统一采用宽表的建模...原创 2019-02-27 17:46:01 · 801 阅读 · 0 评论 -
数仓架构实践1:阿里五层模型架构
1. ODS数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分2. DWD数据明细层功能:为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑建模方式...原创 2019-05-17 13:58:23 · 6278 阅读 · 0 评论 -
数仓架构实践2:京东四层模型架构
京东数仓大致分四层架构BDM:数据缓冲层,与源系统保持一致,相当于传统数仓的ODS。FDM:基础数据层,按主题设计,数据融合,存放明细历史数据,相当于传统数仓的EDW。GDM:通用汇总数据层,明细粒度,可以查询到具体字段信息;数据的预关联,预汇总和预加工;依赖对应用的共性提炼,而不是某个具体应用。ADM:聚合数据层,应用层。面象应用按需定制。1:数据缓冲层(BDM)源业务系统数据的...原创 2019-05-17 14:21:31 · 8130 阅读 · 0 评论 -
数仓架构实践3:苏宁售后体系四层模型架构
原始借鉴方案1. 复制层(SSA,system-of-records-staging-area)SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。也叫登台区。2. 原子层(SOR,system-of-rec...原创 2019-05-22 16:06:23 · 1684 阅读 · 0 评论 -
同仁数仓分层模型架构分享(1)
数据仓库的作用整合公司的所有业务,建立统一的数据中心。分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果。作为各个业务的数据源,形成业务数据互相反馈的良性循环。提供数据报表,用于公司的决策支持等等。数据仓库的架构数据采集层:数据采集层的任务就是把数据从各种数据源中采集和存储到数据库上,期间有可能会做一些ETL(抽取extra,转化transfer,装载load )操作。数据...原创 2019-05-22 10:55:47 · 601 阅读 · 0 评论 -
同仁数仓分层模型架构分享(2)
不知其来源出处,感觉是一字一字码出来的经验之谈,特分享与此。 分层案例 1.电信通讯stage层 ->bdl层 ->analysis层2.传统金融/保险ods层 ->pdm层 ->dm层3.互联网金融/电商odl层 ->bdl层 ->idl层 ->adl层尽管行业不同,但套路却差不多。 专业术语 ODL层 (Operational...原创 2019-05-22 17:13:12 · 620 阅读 · 0 评论 -
同仁数仓分层模型架构分享(3)
文章在京东系数据仓库建设方案的基础上,加上自己独特的理解,很能给人以参考和启发。原作者:hxiao1317098 原文:https://blog.youkuaiyun.com/hxiao1317098/article/details/73623690 对于大数据来说,数仓的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的数仓主要是用来解决企业内部数据的分析,尤其是各种各样的统...原创 2019-08-01 08:47:57 · 389 阅读 · 0 评论