1-dw_数据仓库

企业各部门业务系统独立,数据交互少,存在数据孤岛问题。数据仓库可将企业源系统数据同步,统一管理和定义数据口径。同时介绍了数据仓库建设的重要概念,如ETL、元数据、事实表和维度表,以解决数据孤岛问题,提供全面数据供分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在公司和企业里一般会有很多的业务系统,比如像销售、财务的、人资等各个部门都有自己为了开展工作或业务需要的系统,正常每个部门的系统都是独立的,如果确实需要别人系统里的数据也是做一个接口来访问,互相之间的数据交互很少,无法从公司整体情况拉通来看数据的价值,所以数据仓库就是为了解决这个问题,把企业所有源系统的数据经过统一的规范同步到一个数据仓库系统里,统一管理和定义企业的数据口径,提供全面的数据供分析人员分析,解决各业务系统数据孤岛问题。如下图所示:

在上面的图中,我们需要了解几个主要的概念

ETL Extract-Transform-Load ,即从数据的源端经过抽取 - 转换 - 加载到目标端,这是数据仓库建设最重要的工具,需要他把公司的所有源头数据 ETL 到数据仓库中。如下图的 3 个系统对性别的定义不一样, A 系统:男或女; B 系统: 1 C 系统: M F ,哪么需要 ETL 工具转换统一的规则到数据仓库里( 1 )。

元数据:在数据仓库里,为了区分各个来源系统的数据定义,所以需要元数据来定义各个来源的数据,比如 A,B 系统里都有一个叫销售金额的数据(一个是国内市场,一个是海外市场),哪么在数据仓库里要能区分这个销售金额,以及他们的来源。他们的单位,加载时间等等。

事实表:表示企业发生的一个真实的业务数据,比如销售一个产品就要记录一条数据到事实表里,事实表里有 2 个组成部份,维度和度量,哪么在销售一个产品事实表里维度信息会有:销售员、部门、日期、客户名、产品等,度量信息有:金额、数量等。

维度表:对事实表里的某一个维度的扩展定义,比如上图的日期维度,哪么我们在此基础上需要做一些扩展方便以后做数据分析使用,目前还只是到了日期天,哪么我们可以扩展到周、月、季、年、上半年、下半年等。

 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31535951/viewspace-2643356/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31535951/viewspace-2643356/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值