数据仓库、事实表、维度表、DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解

详情请点击

1.数据仓库

DW是一个 面向主题的,集成的,相对稳定的,反映历史变化的 数据集合
用于支持管理决策(DMS)

面向主题的:经过ETL抽数、清洗、转换加载之后,数据按不同主题存放同一个库中,梳理归类;
例:金融业务:客户系统,风控系统,产品系统,组织系统,核心系统(这些叫主题,或主题域)
每个系统都有独立的数据库
相对稳定的:不会认为改变任何数据,只同步。如果源系统出故障了,数据仓库的数据仍然存在。反应历史变化:源系统数据库一般只保存几个月,定期删除,数据仓库可保存几年后压缩在硬盘里。

面试问题:
在源系统也能做报表,为什么要建立数仓?
因为每个源系统都有自己的功能,可以在这里进行分析或抽其他源系统的数据,但会影响这个系统的功能,其次,应用系统之间会重复抽取数据,为了避免源系统频繁交互,需要构建数仓。

2.事实表

每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如现金登记事务

所产生的数据,事实数据表通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的主键,而维度表包含事实记录的特性。事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。

包含在事实数据表中的“度量值”有两中:一种是可以累计的度量值,另一种是非累计的度量值。最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的。用户可以通过累计度量值获得汇总信息,例如。可以汇总具体时间段内一组商店的特定商品的销售情况。非累计的度量值也可以用于事实数据表,单汇总结果一般是没有意义的,例如,在一座大厦的不同位置测量温度时,如果将大厦中所有不同位置的温度累加是没有意义的,但是求平均值是有意义的。

一般来说,一个事实数据表都要和一个或多个纬度表相关联,用户在利用事实数据表创建多维数据集时,可以使用一个或多个维度表。

3.维度表

维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。例如,包含产品信息的维度表通常包含将产品分为食品、饮料、非消费品等若干类的层次结构,这些产品中的每一类进一步多次细分,直到各产品达到最低级别。

在维度表中,每个表都包含独立于其他维度表的事实特性,例如,客户维度表包含有关客户的数据。维度表中的列字段可以将信息分为不同层次的结构级。

粒度:统计粒度,例如统计人口(统计到户还是统计到人还是村)

指标:需要计算的度量值((衡量的标准)销售额,采购金额)

例如:
酒店指标:
OCC 开房率:
开房数(status_rm)/总房数 (room_open)
ADR 平均房价:
实收房费额(RoomAmount)/开房数 (status_rm)
RP 每间房间平均收入 :
实收房费额(RoomAmount)/总房数(room_open)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值