基于OneData的数据仓库建设(阿里巴巴大数据之路)

1- 指导思想

本文章大部分内容来自《阿里巴巴大数据之路》一书

  • 首先,要进行充分的业务调研和需求分析。

  • 其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵,抽象出业务过程和维度。

  • 再次,对报表需求进行抽象整理出相关指标体系,使用OneData工具完成指标规范定义和模型设计。最后,是代码研发和运维。

  • 其实施流程主要分为:数据调研、架构设计、规范定义和模型设计。

在这里插入图片描述

2- 数据调研

2.1- 业务调研

需要确认要规划进数仓的业务领域,以及各业务领域包含的功能模块,以阿里的业务为例,可规划如下矩阵:
在这里插入图片描述

2.2- 需求调研

了解需求方关系哪些指标?需要哪些维度、度量?数据是否沉淀到汇总层等到。
在这里插入图片描述

3- 架构设计

3.1- 数据域的划分

数据域是将业务过程或者维度进行抽象的集合,一般数据域和应用系统(功能模块)有联系,可以考虑将同一个功能模块系统的业务过程划分到一个数据域:
在这里插入图片描述
在这里插入图片描述

3.2- 构建总线矩阵

在进行充分的业务调研和需求调研后,就要构建总线矩阵了,需要做两件事情:

  • 明确每个数据域下有哪些业务过程。
  • 业务过程与哪些维度相关,并通过总线矩阵定义每个数据域下的业务过程和维度:

在这里插入图片描述

4- 指标体系搭建

4.1- 基本概念

  • 数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。
  • 业务过程:指企业的业务活动中的事件。
  • 时间周期:用来明确数据统计的事件范围或者时间点,如近30天、截至当前。
  • 修饰类型:对修饰词的一种抽象划分。
  • 修饰词:指除统计维度外指标的业务场景限定抽象。抽象词隶属于一种抽象类型,如访问终端类型下的pc、安卓、苹果。
  • 度量/原子指标:具有明确含义的业务名词。如:支付金额。
  • 维度:维度是度量的环境,用来反应业务的一类属性,这类属性的集合称为一个维度,也可以称为实体对象,如地理维度、时间维度。
  • 维度属性:对维度的描述,隶属于一个维度。如:地理维度下的国家、省份。
  • 派生指标:原子指标+多个修饰词(可选)+时间周期。
  • 明确原子指标、修饰词、时间周期和派生指标的定义。

在这里插入图片描述

4.2- 操作细则

  • 派生指标来源于三类指标:事务型指标、存量型指标和复合型指标。
  • 事务型指标:指对业务活动进行衡量的指标。
  • 存量型指标:指对实体对象某些状态的统计。
  • 复合型指标,在上述两种指标基础上复合而成的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值