原文:http://blog.sina.com.cn/s/blog_4968aebf0100kuuk.html
http://blog.youkuaiyun.com/chenrizhong/article/details/6704991
先让我们看看数据仓库的定义,数据仓库的创始人 Bill Inmon 是这样定义的:
数据仓库是 为支持决策管理建立的,是面向主题、集成的、稳定的、随时间变化的数据集合。
1、面向主题
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、集成的
面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、相对稳定的
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、反映历史变化
操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
从数据仓库的定义可以看出数据仓库中数据的特点:
(1)数据的存储是面向主题的:在操作型系统中,数据集合是以单独的应用程序为中心专门组织存放的,数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同而不同。
(2)数据是集成的:数据仓库的数据是来源于不同的操作型系统,其中文件布局、编码表示方式、命名习惯和度量单位等都有可能不同,还有一些企业除了从操作系统获取内部数据,外部系统数据也是很重要的。所以,在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素标准化,对数据进行清洗、转换等集成操作。
(3)数据的时间特性:操作型系统存储的数据一般包含当前值,反映的是当前信息,而数据仓库中是供分析和决策使用的,决策者必须根据数据趋势进行决策,这不但需要当前数据,也需要历史数据。所以,数据仓库的目的决定了它包含当前数据之外,也必须包含历史数据。数据仓库中的数据结构都包含时间特性对于设计阶段和实现阶段都具有重要意义。
(4)数据的稳定性:操作型系统的数据是实时更新的,数据仓库中的数据在载入之后几乎不会再更新,只要是查询分析使用。另外,数据仓库中数据粒度与操作型系统中的数据粒度也不一样,在操作型系统中数据存储通常数据非常详细,但是数据仓库中是按不同的粒度层次来存放数据的。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30260000/viewspace-1992536/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/30260000/viewspace-1992536/