加粗样式@TOC
数据仓库的概念
定义:面向主题的,集成的,相对稳定的,反应历史变化的数据集合,用于支持管理决策。
面向主题
在较高的层次上对企业的特定的应用场景来分析和抽象数据,作为单独的分析和研究的领域。
1.在仓储系统中,经常会有一个过程来衡量货物的周转率,这个时候有一个仓储的概念,抽象一个货物从进入仓库到出仓库的时间周期。如果这个周期特别长,说明整个货物的周转率偏低。这个时候就可以基于这个特定的主题进行建模。
2.在整个沪金领域,会有一个逾期的概念,也会又一个风险的概念,对于资产表现的分析可以是一个主题,对于逾期的分析可以是一个主题,它就是一个面向特定领域的分析。
3.财务,资金利用率可以是一个主题,面向运营,他更多的分析主题是拉新,留存,或者是一个流失预警这些特定领域的分析,都可以是一个主题。
集成
企业级数据,同时数据要保持一致性,完整性,有效性,精确性
在一个企业里面有很多系统,公司有财务系统,HR有人事系统,对仓库有仓储系统,订单系统,还有OA系统,在一个公司里面有n个系统,这些系统之间通常情况下是相对孤立的,而每一个系统都有一个独立的数据库,但是在一个公司更高的层次上,想看到一个企业完整数据的全貌,这个时候就出现了一个集成的概念,一个企业级的集成。
数据仓库的数据是从原有的分散的数据库数据抽取来的。操作型数据与DSS分析型数据之间差别甚大。第一,数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第二,数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:
(1)要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等。
(2)进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
3
你作为一个企业的员工,比如你是一个仓库的发货员,你在仓库系统里面你有一个自己的用户id,你通过用户登陆到仓储系统里面来取每天处理你的货物。同时你也是企业的员工, 你在oa里面有自己的信息,你在财务系统里面也有自己的信息,在多套系统之间,你的信息是通过不同的方式来表达的,你的性别在数据库表里面是男,在OA系统里面你的性别是男,但是记得是M,可能你在财务系统又是另一个用abcd来表达的,所以在各个系统中是不一致的。所以为了建成一个企业级的数据仓库一致性的数据库,所以要把企业所有的数据做一个集成。
稳定的
从某个时间段来看是保持不必的,没有更新操作。删除操作,以查询分析为主。
因为我们建数仓通常情况下要追踪历史的,某一时刻的一个用户的状态,但是数据库里面不是这样的,因为数据库本身是面向业务处理,比如某一个人目前是休假状态,那你在企业oa就是休假状态,但是你无法追踪说去年6月份,或者上个月的6号你是一个什么状态。但是在在数仓里面是有的。因为你的状态一旦在某一天发生了变化你的状态就是固定的,当然在业务系统里面你休假回来了你就是一个正常的上班状态。能看到你上个月是一个休假状态,这个月10号是一个休假状态,而且在数仓里面不存在删除数据的状态,业务系统里面会有很多更新删除操作,只能反应当前的状态,无法反应历史的状态
变化的
反应历史变化的