数据仓库

著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企­业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 
数据库是一个装数据(信息的原材料)的地方。 
数据仓库是一种系统,这种系统也是用数据库装东西。 
数据仓库系统(用数据库装东西)与其他基础业务系统(例如财务系统、销售系统、人力资源系统等,也是用数据库装东西)的区别是: 
基础业务系统的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数­据库去取,比较麻烦(现实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且不同的时候我想要不同的东西,经常会被农民伯伯骂,­弄得双方都不开心)。另外一方面,各个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程,一不小心里面可能就藏着一条大青虫。 
那么,数据仓库系统就是建立一个大的超市,将各地农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直接从超市里面拿就可以了。 

早期一直不理解数据仓库是什么困惑得很。 

宏观一点讲,数据仓库就是堆放公司所有数据的地方,之所以把数据都堆在一起,是为了从中间找到有价值的东西。 

数据仓库更多的是一个概念,不要把数据仓库想成那些号称是数据仓库的软件产品们。 

数据仓库的物理上就是数据库。相对业务系统数据库叫OLTP数据库(用于业务处理),这种数据库叫OLAP数据库(用于业务分析)。 

数据仓库的概念是针对以下基本需求产生的: 
公司的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同,地域不同。能不能将所有这些数据集中起来,再淘淘有没有有意义的业务规律­。 

数据仓库数据库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便就100G以上。 

数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。 

数据仓库概念包含从业务生产系统采集数据的程序,这个程序还不能影响业务系统的运行。(属于所谓“ETL”过程) 

数据仓库包括业务系统长期的历史数据,例如5年,用来分析。(所谓“ODS”数据) 

数据仓库包括针对某相业务值(例如销售量)重新打上标签的业务流水数据。(所谓“事实表”、“维度表”)。 

数据仓库概念兴许还包含报表生成工具(所谓“BI”工具)。这些工具能够达到几年前所谓DSS(决策分析)的效果。 

数据仓库的客户历史资量的分析,也许又与CRM系统粘点边。 

总之,一点,一个公司想针对已有的历史业务数据,充分的利用它们,那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合,只是达到这个目标的科学技术罢了。 

牢记住数据仓库的基本需求,不要被供应商吓着。 
数据仓库可以说是决策支持系统,能帮助老板了解企业的整体全貌,看到数据仓库提供的经过整理统计归纳的数据后老板凭自己的管理经验可以发现企业的问题或困难或成­功因素在哪一方面,然后可以不断的追溯数据,直到确定到最具体的细节上,这样能够不断提升老板或管理层的管理水平,不断改善企业的管理。我们知道的最好的一个例­子就是美国某大型超市啤酒和尿布的故事。 
沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能(Business 
Intelligence,简称BI)技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据­分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种­商品的销量都有了显著增加。 
数据库是数据仓库的基础。数据仓库实际上也是由数据库的很多表组成的。需要把存放大量操作性业务数据的数据库经过筛选、抽取、归纳、统计、转换到一个新的数据库­中。然后再进行数据展现。老板关注的是数据展现的结果。 
数据仓库(DATA WAREHOUSE/DATA 
MART)的另一重要概念是数据从不同的数据库(DATABASES) 
里调出经过ETL工具(如POWERCENTRE,DECISIONSTREAM, SQL SERVER 
2000 DTS, SQL SERVER 2005 
SSIS)过程进行清理,确证,整合并设计成多维(dimensional 
framework)。以保证数据的正确、准确、完整, 
这是非常重要的一点。 
我们现在的项目稳定运行了6年多,一直自己开发,最近慢慢开始使用datastage。很多大型项目之所以用工具,是因为工具的本身的特点是开发快,效率相对还­可以,让你更好地有精力用在业务、数据库的优化以及数据测试上,和数据质量本身并没有关系。 
而数据质量关系最密切的还是从设计(架构、模型等)、业务关系的理解、项目管理(含和客户的交流,以及遵从开发流程和测试流程)等一系列项目工程的过程。这也是­为什么很多项目使用了ETL工具,但是数据质量还是提高不大的主要原因。 

数据仓库的作用重在数据的集中管理。集中管理的最终目的是为了分析,预测。 
所谓的ETL。不过是数据仓库的构建的一个必须过程。数据的抽取转换与装载,都是为了集中管理所做的基础工作,这些数据与动作的描述,都会有有响应的元数据进行­描述。 
在数据仓库建模的过程,我们一般都是采用多维模型,如星形,雪花型等等,这样做最大的特点就是效率高,数据的冗余度低。所以,把OLAP与数据仓库混为一谈我认­为是片面的解释。 
我们也可以选择业务逻辑模型建立数据仓库,这是很早以前的做法了,特点就是效率不高,数据的冗余度高,但他能实现非常难以表达的业务逻辑设计。 
基于数据仓库最重要的是分析与预测,我认为,历史现在将来是数据仓库的精华。。 
基于数据仓库的DM,OLAP都是为了分析与预测。为了让使用企业单位更好的把握现在,预测将来,因此他最实效的说法我认为是给决策者与管理者进行决策管理提供­分析与预测的依据。 

另外,数据仓库还会起到历史数据分类归档的目的(就像图书馆一样),届时可以通过检索条件方便的查询历史信息;而同类信息在OLTP中早已被更新了。 
至于它的分析功能,就象气象考古研究工作,在不同深度的冰川中保存着当时的气象信息,否则拿什么预测气候变化趋势呢! 
不过,要有相当的管理及技术储备以及管理层的强力支持才可以。先有需求,并具备了必要条件才可上马,否则您的数据仓库将不是超市而是个垃圾堆,“garbage 
in,then garbage out”! 
所以,我认为是企业信息化建设及科学管理水平的提高催生了数据仓库的必然产生,不要赶时髦,炒概念,关键还是冷静分析自己企业的现实状况是否到了必须部署数据仓­库的阶段了! 
至于如何说服管理者,则需要您的努力了,不要站在您技术人员的立场阐述问题,CEO对技术问题不感兴趣,站在他们的角度考虑问题,回答诸如“我们投入如此大的资­金、人力,同时面对升级系统的巨大风险,目的何在?”记住,CEO和CFO(甚至包括CIO)是更希望用数字说话的,您分析一下公司的管理决策流程,就可以向他­们提出很有价值的决策支持报表,而部门经理(或类似人员)每季度也不必头大的制作相关分析报表了,节省的精力可以做更多有价值的事情,这就是企业人力资源利用率­的巨大提升,可以节省多少银子,恐怕CEO不会用你提示了吧! 

谈谈一年来关于数据仓库好处的困惑、探索和感悟 
quote: 

最初由 maltig 发布 
早期一直不理解数据仓库是什么困惑得很。 

宏观一点讲,数据仓库就是堆放公司所有数据的地方,之所以把数据都堆在一起,是为了从中间找到有价值的东西。 

数据仓库更多的是一个概念,不要把数据仓库想成那些号称是数据仓库的软件产品们。 

数据仓库的物理上就是数据库。相对业务系统数据库叫OLTP数据库(用于业务处理),这种数据库叫OLAP数据库(用于业务分析)。 

数据仓库的概念是针对以下基本需求产生的: 
公司的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同,地域不同。能不能将所有这些数据集中起来,再淘淘有没有有意义的业务规律­。 

数据仓库数据库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便就100G以上。 

数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。 

数据仓库概念包含从业务生产系统采集数据的程序,这个程序还不能影响业务系统的运行。(属于所谓“ETL”过程) 

数据仓库包括业务系统长期的历史数据,例如5年,用来分析。(所谓“ODS”数据) 

数据仓库包括针对某相业务值(例如销售量)重新打上标签的业务流水数据。(所谓“事实表”、“维度表”)。 

数据仓库概念兴许还包含报表生成工具(所谓“BI”工具)。这些工具能够达到几年前所谓DSS(决策分析)的效果。 

数据仓库的客户历史资量的分析,也许又与CRM系统粘点边。 

总之,一点,一个公司想针对已有的历史业务数据,充分的利用它们,那么就上数据仓库项目。至于哪些吓唬人的大写字母的组合,只是达到这个目标的科学技术罢了。 

牢记住数据仓库的基本需求,不要被供应商吓着。 

数据仓库是干什么的,到现在,我终于看到了成果。 

一年半以前,我来到现在这家公司(一家证券公司)。跟所有2004年的证券公司一样,“生”与“死”是当时考虑的唯一问题。为获得证监会的“创新业务资格”(获­得这个牌照就如同获得了免死金牌,不但能够生存而且能获得资助从而做大做强),公司急需上马一套集中监控系统,我就是为了这个项目被招募到公司。 

背景: 
在证券行业中,所有公司的业务系统(所谓证券交易系统)有一个基本特征:每一个分支机构(所谓营业部)的交易系统都是独立的(地理上、管理上),这样总部没办法­在技术上对数十套这样的系统的业务数据进行及时的分析与核对。(当然这两年几乎所有公司都实现了交易系统的集中。)于是,几乎所有的证券公司都上马了一套集中监­控系统,它通过广域网,把公司下属的这几十家营业部的数据实时或当天晚上采集到总部的数据库中,白天实时的对资金存取、证券买卖等业务行为进行监控,晚上再运算­一些核对功能,看资金和证券是否帐实相符,再通过WEB界面将结果展示给公司审计部门。我们公司在05年上半年上了这个系统。 

由于手头上的这个系统整合了公司所有的业务系统的数据(30多套分布在全国各地的交易系统、30多套财务系统、集中清算系统、登记公司数据、等等),所以象每个­技术型IT员工一样,我有一个自然而然的想法:能不能搞清楚公司所有业务信息的逻辑关系,自己建一个数据库,搞一个数字虚拟证券公司,在我的这个数据库中包含公­司每一个业务细节的信息,业务部门不管要什么,我都能很快提供出来(而不是依赖供应商)。 

OK。在我这个最朴素的想法的支配下,我开始学习数据库(搞了若干年IT基础设施的我,居然在2004年底又开始学习数据库!可见中国的IT岗位有多么不清晰。­),向供应商请教底层数据结构,向他们请教业务逻辑关系。3个月后,我居然已经能够对供应商提供的“监控功能”提供完全的功能验证,指出了无数的功能BUG,同­时也具备了证券交易、结算业务逻辑的完全的知识。于是想着手搞一套表名字段名命名规则、再搞一套表对应关系(到后来才知道这叫建立“数据模型”),把证券公司的­业务描述得清清楚楚,但到底怎么搞,朦朦浓浓的,不知如何下手。 

另外,我这个人最讲究前因后果,所以十分想对证券业务信息中的因果关系搞清楚讲明白。例如:统计出来的股票交易量的前提条件有很多:不同营业部、不同的委托方式­、不同的交易所、不同的币种、不同的证券类别、不同的客户规模、不同的客户年龄段、不同的月份日期,等等,出来的交易量结果都不一样。可以用一个表来描述,前边­都是因素字段,最后一个是一数值型的交易量字段。蒙蒙浓浓知道这里边有逻辑关系,但总说不清道不明。 

一般而言,越是本能的困惑,往往越是一门大学问。我们在现实工作中遇到的很多问题,美国人早就遇到了,并形成了文字、理论(还起了一堆足以让我们愣住的大写字母­组成的名次。)我们缺乏的是对我们自己本质需求的理解,和与外国已有经验(经验经过归纳后就叫理论),的连接。 

考虑到项目招标时,供应商如何描述“数据仓库”“元数据”等等,搞不清的概念,于是想搞清楚到底什么是“数据仓库”。于是去图书城,专门到数据仓库、OLAP、­多维建模书籍区域去,挨个拿过来翻。注意:如果你没有这方面的困惑和经验,很难对这些书产生共鸣(或者理解),特别是翻译这些专业书籍的人往往本身对这些东西不­懂,所以又误导了一批读者。所以,十几本书里,我只对2本里的一些描述产生强烈的共鸣。 

1、《维度建模完全指南》(该书的作者自称是“数据仓库”的鼻祖)开篇对“数据仓库项目经理”的本质做了描述:一个数据的收集者,一个数据的整理者,一个统计分­析数据的发布者。OK。完全与我的蒙蒙浓浓的对自己在公司里的定位完全一致!作者认为,数据仓库的本质就是收集尽可能多的信息,用作公司的决策支持(中国人总认­为做决策的人一定是领导,所以把“决策支持”等同于“领导查询”,其实在美国,“决策”(decision)是分散到普通员工的(通常是普通的业务人员),而且­任何一项普通的业务决定也叫“决策”,并不是“战略决策”才叫决策。所以“决策支持”绝对不是什么高深的东西)。经过清理的数据往往以一种特定的格式(所谓星型­结构)存放在数据库中,整本书就是与读者探讨(注意是“探讨”,而不是“传授”,所有美国的这类权威书籍里都极力强调不要按书里的方法去实践,这就是美国鼓励自­主创新和中国服从权威的不同文化的典型体现)这方面的经验。 

2《建立多维信息系统》,以一步步深入的方式,解释了维度的概念。所谓“维度”,就是前边我理解的“因素字段”,影响谁呢?表结构中最后的那个数值型的字段。例­如证券交易量字段。交易量字段就是一个“事实”、fact。营业部、委托方式、交易所、币种、证券类别、客户规模、客户年龄段、交易日期,都是因素字段,就是维­度!数数有多少?8个,就是8维。当然可以更多。这就是多维的概念。在我们本能的对日常事务的分析中,就蕴含了“多维”的概念,只是我们没把这种意识写下来,出­书,办研讨会等等。美国人做事就是较真,我们的朦朦浓浓的东西,到人家那里就是几万人研究几十年! 

因为证券公司就靠着客户做证券交易收取手续费,所以业务部门对交易量的统计报表需求很强烈。2年前,由每个营业部发Email报报表,专门一个人汇总。现在有了­集中的业务数据,业务部门就开始使用供应商提供的业务统计报表。太多了,例如:以营业部为行,证券类别为列出一张报表;以月份为单位出,以周为单位出;算公司交­易量对证券交易所交易量的比例。等等。算了一下,不下30多张。还经常要变动。一觉得数据不正常,就找我,让我找找原因。于是,我就到数据库里去,这个字段加上­那个字段再按某个字段某段时间来汇总,哦,怎么算出来跟供应商提供的报表的数值不对呢?于是打电话给供应商,让他们找问题。第二天给我一个升级补丁。好,报表好­了。反反复复,搞死了。 

总书j不是号召自主创新吗?干脆我自己搞一套。于是找出影响交易量的10个因素,建了一张表,前10个字段是(营业部、委托方式、交易所、币种、证券类别、客户­规模、客户年龄段、交易性质、交易月份、交易周),最后一个是交易量。写了个SQL过程,每天生成这张表(后来才知道,这张表就叫CUBE。术语害死人呐。),­再在EXECL里写了一些VBA(简直把美国人10个岗位分工干的活全包了),可以把这个表下载到EXCEL中。再用EXCEL的“数据旋转表”(正式中文译名­为“数据透视表”,但我觉得一定要用上“旋转”这两个点睛的字)的功能,就可以灵活的配置与这10个因素字段相关的所有报表。(我们公司根本没人用过“数据旋转­表”这个功能,甚至连“自动筛选”的功能都没用过。)自己挺得意的。但跟后面用MicroStrategy做出来的报表比起来就差得太远了! 

日本母公司有一套MicroStratey,对中国区总裁说如何如何好,于是2005年初买了一套,做管理财务数据分析。由另一个同事负责。(当时我很奇怪,这­种商业智能、BI、决策支持、数据仓库、OLAP、多维的工具应该由我来管理才对。)一直搁置在那里,直到05年底。业务部门提出对营业部每月新增底有效客户进­行分析,才想起让我用MicroStrategy作为平台。正中下怀。于是,构建一个完全独立于供应商数据结构体系的数据仓库(这里指狭义的数据仓库,或者叫数­据仓库展示区)成了一项现实的工作。 

开始着手设计表结构。(设计一套完整的证券公司业务数据仓库可不是一件好玩的事情。)完全是瀑布方法进行设计,不断的尝试,修改,从头再来。几个月前曾沿用供应­商的字段命名规则,维度表不使用代理键,试着做了套数据仓库模型,用MicroStrategy做做报表,还可以。到了春节,下决心完全重新设计这个数据仓库。­这下可好,好多个晚上睡不好,脑子里完全是这个表应该是什么字段,时间维度如何划分层次,如何来划分事实,搞几个大的事实范畴,粒度到什么级别,那些事实是一个­粒度,这些事实需要不同的事实表描述吗,维度表直接的关系,怎样设计维度最能保证将来的扩充性,如何避免雪花型。不断的返工。整个模型,越来越清晰。最终,自己­觉得满意了,既能满足最基本的需求,也能保证将来对这个模型的扩充。又开始写SQL存储过程,验证数据转换的准确性,不断的修改,不断的扩充。不断的告诫自己,­不要过于最求完美,告诫自己适度的缺陷是项目前进的保证。总之,有了一套完全自主知识产权的东西,并且自认为还是比较完备、复扎和严谨的,没有足够的思索是难以­获得这个东西的。 

开始设置MicroStrategy,从没系统的用过,什么都是摸石头过河。但在使用这个OLAP工具的时候,完全体会到它的好处。因为,我为业务部门做过太多­的SQL统计,多到我自己都想要搞一套SELECT语句的自动生成工具。结果发现,MICROSTRATEGY完全就是我想要的东西!设置好什么实体、事实、度­量、层系、上下级关系之类的东西,然后不断的试这做一些报表,找到自动生成的SELECT语句跟之前设置的那些东西到底是什么关系。没多久就摸熟了。(因为关于­如何使用SELECT语句生成各种报表,我有太多的经验和苦闷。) 

出来的效果出奇的好,灵活的实体配置,行列抬头的随意旋转,各种方向的钻取,汇总表的自动选取。从没觉得OLAP工具这么好用。有了它,我甚至再也不用去写SE­LECt语句,不用在不同的表直接Join来join去。3分钟就能做一张所谓的报表。 

到现在,可以说,我已经完全领悟到数据仓库的好处。虽然这些好处只是冰山一角。 
但是话说回来,如果甲方没有我这个“人”,没有对数据仓库的理解人,没有愿意对数据分析的人,公司没有精细化管理的意识,没有较真的社会风气,“数据仓库”这个­概念还不是废物一堆,或者是外国供应商骗钱的口实? 

一般人只看到数据仓库好处的表皮,其实还有一个重要作用是,数据仓库通过分析数据(包括报表、OLAP、挖掘),能把分析出来的东西找出来,就可以对症下药,采­取措施。比如某品牌产品,在某代理商代理的销售中,在某地区某季度业绩很差,于是在下钻分析,分析出销售中第几步出了问题,分析出问题是质量不好,服务不好,还­是其他原因。分析好了后,在即席查询中将所有条件列出,查询出具体的情况,公司相关部门负责人去处理,解决好具体环节。 

这才是数据仓库解决实际具体情况的深入应用,不仅仅是给老总决策参考,而是给老总及部门负责人具体的,详细的信息,指导如何去处理。 

这样讲不知道你是不是好理解一点: 

数据仓库的概念是美国传进来的。讲讲在美国,数据仓库这个概念是怎么兴起的。 

30年前,所有的美国的任何行业都轰轰烈烈的进行着信息化的活动。各种业务活动都由电脑处理,叫做“业务系统”。 
必然的,所有业务系统里都有查询统计功能。 

20年前,随着电脑化的业务系统里存储的历史数据逐渐增加,他们发现查询历史数据或者做业务统计的速度越来越慢。对业务数据统计分析的需求也越来越复杂。业务系­统已经不堪重负。 

于是很多公司就把,业务系统里的历史数据拿出来,放在另一个地方,专门负责对历史数据的查询统计分析。这个工作显得越来越重要,也越来越有企业肯花钱来做,也越­来越有人认真的研究怎么把查询统计分析的工作做好。 

10多年前,开始美国人开始有人起名字,就叫“数据仓库”。 

这就是“数据仓库”这个名词的由来。当然,在这个领域术语极不规范,说白了就是专门用来查询分析统计业务数据的数据库。


转载于:https://my.oschina.net/u/1790925/blog/400819

第一章对数据仓库的迫切需求...................................................................................................23 本章目标:.............................................................................................................................23 对战略性信息的迫切需求.....................................................................................................24 信息危机.................................................................................................................................26 技术趋势.................................................................................................................................27 机遇和风险.............................................................................................................................28 过去决策支持系统的失败.....................................................................................................29 决策支持系统的历史.............................................................................................................30 不能提供信息.........................................................................................................................31 操作型系统和决策支持系统.................................................................................................31 使商业运转起来.............................................................................................................31 监视商业的运转.............................................................................................................32 不同的范围,不同的目的.............................................................................................32 数据仓库——唯一可行的解决方案.....................................................................................33 一种新类型的系统环境.................................................................................................34 新环境的需求处理.........................................................................................................34 数据仓库的商业智能.....................................................................................................34 数据仓库的定义.....................................................................................................................35 一个关于信息传递的简单定义.....................................................................................35 一个环境,而不是产品.................................................................................................36 多种技术的混合.............................................................................................................36 本章小结.................................................................................................................................36 思考题.....................................................................................................................................37 复习题.....................................................................................................................................37 第二章数据仓库的组成部分.......................................................................................................39 本章目标.................................................................................................................................39 定义的特点.............................................................................................................................40 面向主题的数据.............................................................................................................40 6 完整的数据.....................................................................................................................41 有时间特性的数据.........................................................................................................42 数据的不变性.................................................................................................................43 数据粒度.........................................................................................................................43 数据仓库和数据集市.............................................................................................................44 它们有什么不同?.........................................................................................................45 数据仓库的组成部分.............................................................................................................48 源数据部分.....................................................................................................................48 数据准备部分.................................................................................................................50 数据存储部分.................................................................................................................53 信息传递部分.................................................................................................................53 元数据部分.....................................................................................................................54 管理和控制部分.............................................................................................................54 数据仓库中的元数据.............................................................................................................54 元数据的类型.................................................................................................................55 特别指出的意义.............................................................................................................55 本章小结.................................................................................................................................55 思考题.....................................................................................................................................56 复习题.....................................................................................................................................56 第三章数据仓库的发展趋势.......................................................................................................58 本章目标.................................................................................................................................58 数据仓库的持续成长.............................................................................................................59 数据仓库正在成为主流.................................................................................................59 数据仓库的扩张.............................................................................................................60 解决方案和产品.............................................................................................................61 重要趋势.................................................................................................................................63 多种数据类型.................................................................................................................63 数据可视化.....................................................................................................................65 并行处理.........................................................................................................................66 查询工具.........................................................................................................................67 7 浏览工具.........................................................................................................................67 数据融合.........................................................................................................................68 多维分析.........................................................................................................................69 代理技术.........................................................................................................................69 从外部信息提供企业获得的数据.................................................................................69 数据仓库和ERP ............................................................................................................70 数据仓库和知识管理.....................................................................................................71 数据仓库和CRM...........................................................................................................72 动态数据仓库存储.........................................................................................................72 标准的出现.............................................................................................................................73 元数据.............................................................................................................................74 OLAP..............................................................................................................................74 实现WEB 技术的数据仓库..................................................................................................75 将数据仓库放入Web 中................................................................................................75 将Web 技术引入到数据仓库........................................................................................76 实现Web 技术的配置...................................................................................................77 本章小结.................................................................................................................................77 思考题.....................................................................................................................................78 复习题.....................................................................................................................................79 第四章规划和项目管理.............................................................................................................80 本章目标.................................................................................................................................80 规划你的数据仓库.................................................................................................................81 关键问题.........................................................................................................................81 商业的需求,而不是技术上的.....................................................................................83 一把手原则.....................................................................................................................84 数据仓库的可行性分析.................................................................................................84 全面的计划.....................................................................................................................85 数据仓库项目.........................................................................................................................86 有什么不同?.................................................................................................................87 准备情况的评估.............................................................................................................88 8 生命周期方法.................................................................................................................89 开发阶段.........................................................................................................................90 项目团队.................................................................................................................................91 组织项目团队.................................................................................................................92 角色和责任.....................................................................................................................92 技能和经验水平.............................................................................................................95 用户参.........................................................................................................................97 项目管理需要考虑的事项.....................................................................................................98 项目管理的原则.............................................................................................................99 警告征兆.......................................................................................................................100 成功的因素...................................................................................................................101 一个成功项目的细审...................................................................................................102 采用一个实用的方法...................................................................................................103 本章小结...............................................................................................................................104 思考题...................................................................................................................................104 复习题...................................................................................................................................105 第五章定义商业需求...............................................................................................................106 本章目标...............................................................................................................................106 维度分析...............................................................................................................................106 不可预知信息的使用...................................................................................................106 商业数据的维度...........................................................................................................107 商业维度的例子...........................................................................................................108 信息包——一个新概念.......................................................................................................109 不完全确定的需求.......................................................................................................109 商业维度.......................................................................................................................110 维度层次和范畴........................................................................................................... 111 关键商业指标或事实...................................................................................................112 收集需求的方法...................................................................................................................113 采访技巧.......................................................................................................................114 采用联合应用程序设计方法.......................................................................................117 9 回顾已有的文档...........................................................................................................119 需求定义:范围和内容.......................................................................................................120 数据源...........................................................................................................................120 数据转换.......................................................................................................................121 数据存储.......................................................................................................................121 信息传递.......................................................................................................................121 信息包图表...................................................................................................................122 需求定义文档大纲.......................................................................................................122 本章小结...............................................................................................................................122 思考题...................................................................................................................................123 复习题...................................................................................................................................123 第六章需求——数据仓库的驱动力.......................................................................................125 本章目标...............................................................................................................................125 数据设计...............................................................................................................................126 商业维度的结构...........................................................................................................127 关键衡量指标的结构...................................................................................................127 详细程度.......................................................................................................................127 体系结构规划.......................................................................................................................128 组成部分的构成...........................................................................................................129 特别考虑的问题...........................................................................................................130 工具和产品...................................................................................................................132 数据存储规范.......................................................................................................................133 数据库管理系统的选择...............................................................................................134 存储规模估计...............................................................................................................135 信息传递策略.......................................................................................................................136 查询和报表...................................................................................................................136 分析的类型...................................................................................................................137 信息发布.......................................................................................................................137 成长和扩展...................................................................................................................137 本章小结...............................................................................................................................138 10 思考题...................................................................................................................................138 复习题...................................................................................................................................139 第七章体系结构及其组成部分...............................................................................................140 本章目标...............................................................................................................................140 了解数据仓库的体系结构...................................................................................................140 体系结构:定义...........................................................................................................140 三个主要区域的体系结构...........................................................................................141 有区别的特性.......................................................................................................................142 不同的目标和范围.......................................................................................................142 数据内容.......................................................................................................................143 复杂分析和快速响应...................................................................................................143 灵活性和动态性...........................................................................................................144 元数据驱动...................................................................................................................144 体系结构框架.......................................................................................................................144 支持数据流的体系结构...............................................................................................144 管理和控制模块...........................................................................................................145 技术性体系结构...................................................................................................................146 数据获取.......................................................................................................................147 数据存储.......................................................................................................................150 信息传递.......................................................................................................................152 本章小结...............................................................................................................................153 思考题...................................................................................................................................154 复习题...................................................................................................................................154 第八章数据仓库的基本构造...................................................................................................156 本章目标...............................................................................................................................156 支持体系结构的基本构造...................................................................................................156 操作型基本结构...........................................................................................................157 物理基本构造...............................................................................................................158 硬件和操作系统...................................................................................................................159 平台选择.......................................................................................................................160 11 服务器硬件...................................................................................................................168 数据库软件...........................................................................................................................172 并行处理方案...............................................................................................................173 查询间的并行...............................................................................................................173 查询内并行...................................................................................................................173 数据库管理系统的选择...............................................................................................175 工具集合.......................................................................................................................176 体系结构先行,然后才是工具...................................................................................177 本章小结...............................................................................................................................179 思考题...................................................................................................................................180 复习题...................................................................................................................................180 第九章元数据的重要角色.......................................................................................................182 本章目标...............................................................................................................................182 元数据的重要性...................................................................................................................182 数据仓库的关键需求...................................................................................................184 使用数据仓库...............................................................................................................185 构建数据仓库...............................................................................................................185 管理数据仓库...............................................................................................................186 谁需要元数据?...........................................................................................................187 元数据就像一个神经中枢...........................................................................................187 为什么元数据对最终用户是关键的...........................................................................188 为什么元数据IT 人员来说是关键的.........................................................................190 数据仓库任务自动化...................................................................................................192 建立信息上下文...........................................................................................................193 按功能区域划分的元数据类型...................................................................................194 数据获取.......................................................................................................................195 数据存储.......................................................................................................................196 信息传递.......................................................................................................................197 商业元数据...........................................................................................................................198 内容总揽.......................................................................................................................199 12 商业元数据举例...........................................................................................................199 内容重点.......................................................................................................................200 谁会受益?...................................................................................................................201 技术元数据...........................................................................................................................201 内容总揽.......................................................................................................................201 技术元数据举例...........................................................................................................202 内容重点.......................................................................................................................203 谁会受益?...................................................................................................................204 如何提供元数据...........................................................................................................204 元数据需求...................................................................................................................205 元数据的来源...............................................................................................................207 元数据管理的挑战...............................................................................................................209 元数据存储区...............................................................................................................209 元数据集成标准.......................................................................................................211 实施选项.......................................................................................................................212 本章总结...............................................................................................................................213 思考题...................................................................................................................................214 复习题...................................................................................................................................215 第十章维度建模的原则...........................................................................................................216 本章目标...............................................................................................................................216 从需求到数据设计...............................................................................................................216 设计决策.......................................................................................................................216 维度建模基础...............................................................................................................217 E-R 建模维度建模的对比.......................................................................................220 使用Case 工具.............................................................................................................221 星形模式...............................................................................................................................222 一个简单的星形模式的回顾.......................................................................................222 维表的内容...................................................................................................................223 事实表的内容...............................................................................................................225 不含事实的事实表.......................................................................................................227 13 数据粒度.......................................................................................................................228 星形模式的键.......................................................................................................................229 主键...............................................................................................................................229 替代键...........................................................................................................................230 外键...............................................................................................................................230 星形模式的优势...................................................................................................................231 用户容易理解...............................................................................................................231 优化浏览.......................................................................................................................232 最适于查询处理...........................................................................................................232 星形连接和星形索引...................................................................................................233 本章总结...............................................................................................................................234 思考题...................................................................................................................................234 复习题...................................................................................................................................234 第十一章维度建模:高级专题...............................................................................................236 本章目标...............................................................................................................................236 维表的更新...........................................................................................................................236 慢速变化维...................................................................................................................237 第1 类修改:改正错误...............................................................................................238 第2 类修改:保存历史数据.......................................................................................239 第3 类修改:暂时的(软性的)修改.......................................................................240 各式各样的维度...................................................................................................................241 大维度...........................................................................................................................242 多层次结构...................................................................................................................243 快速变化维...................................................................................................................243 废弃维度.......................................................................................................................244 雪花形结构...........................................................................................................................245 规范化选项...................................................................................................................245 优势劣势...................................................................................................................246 什么时候使用雪花形结构...........................................................................................247 聚集事实表...........................................................................................................................247 14 事实表的大小...............................................................................................................249 聚集的需求...................................................................................................................251 对事实表进行聚集.......................................................................................................251 聚集的选项...................................................................................................................257 星形模式族...........................................................................................................................258 快照表和实务表...........................................................................................................259 核心表和定制表...........................................................................................................260 支持企业价值链或者价值环.......................................................................................261 使维度一致...................................................................................................................262 将事实标准化...............................................................................................................263 星形模式族小结...........................................................................................................263 本章总结...............................................................................................................................263 思考题...................................................................................................................................264 复习题...................................................................................................................................264 第十二章数据抽取、转换和装载...........................................................................................266 本章目标...............................................................................................................................266 ETL 概观..............................................................................................................................267 最重要和最具有挑战性...............................................................................................267 耗时而且费劲...............................................................................................................268 ETL 的需求和步骤......................................................................................................269 关键因素.......................................................................................................................270 数据抽取...............................................................................................................................271 数据源确认...................................................................................................................272 数据抽取技术...............................................................................................................273 技术的评估...................................................................................................................278 数据转换...............................................................................................................................281 数据转换:基本任务...................................................................................................282 主要转换类型...............................................................................................................282 数据整合和合并...........................................................................................................284 维度属性的转换...........................................................................................................286 15 如何实施转换...............................................................................................................286 数据装载...............................................................................................................................288 应用数据:技术和过程...............................................................................................289 数据刷新和更新的对比...............................................................................................291 维表的过程...................................................................................................................292 事实表:历史装载增量装载...................................................................................292 ETL 总结..............................................................................................................................293 ETL 工具选项..............................................................................................................294 强调ETL 中的元数据(Metadata)...........................................................................295 ETL 的总结和方法......................................................................................................295 本章总结...............................................................................................................................297 思考题...................................................................................................................................297 复习题...................................................................................................................................298 第十三章数据质量:成功的关键...........................................................................................299 本章目标...............................................................................................................................299 为什么数据质量如此重要...................................................................................................300 什么是数据质量...........................................................................................................300 提高数据质量的好处...................................................................................................303 数据质量问题的类型...................................................................................................304 数据质量带来的挑战...........................................................................................................307 数据污染的来源...........................................................................................................307 姓名和地址的有效性...................................................................................................308 数据质量低的代价.......................................................................................................310 数据质量工具.......................................................................................................................310 数据清洗工具的目录...................................................................................................311 错误发现特性.............................................................................................................311 数据修正特性.............................................................................................................311 数据库管理系统的质量控制.......................................................................................312 确保数据质量的第一步.......................................................................................................312 数据清洗的决策...........................................................................................................313 16 谁应该负责?...............................................................................................................316 净化过程.......................................................................................................................317 对数据质量的实用建议...............................................................................................319 本章总结...............................................................................................................................319 思考题...................................................................................................................................320 复习题...................................................................................................................................320 第十四章信息和用户类型之间的匹配...................................................................................322 本章目标...............................................................................................................................322 数据仓库的信息...................................................................................................................323 数据仓库VS 操作型系统....................................................................................................323 信息潜力.......................................................................................................................325 全面的企业管理...........................................................................................................325 在商业领域的信息潜力...............................................................................................326 用户信息接口...............................................................................................................327 信息使用模式...............................................................................................................327 行业应用...............................................................................................................................329 谁将使用这些信息?...................................................................................................330 用户的种类...................................................................................................................330 他们需要什么...............................................................................................................332 怎样为用户提供信息...................................................................................................336 信息传送机制.......................................................................................................................337 查询...............................................................................................................................337 报表...............................................................................................................................339 应用系统.......................................................................................................................341 信息传送工具.......................................................................................................................341 桌上型电脑环境...........................................................................................................342 工具选择的方法学.......................................................................................................342 选择工具的标准...........................................................................................................345 信息传送框架.......................................................................................................................347 本章总结...............................................................................................................................347 17 思考题...................................................................................................................................348 复习题...................................................................................................................................348 第十五章数据仓库中的联机分析处理(OLAP)......................................................................350 本章目标...............................................................................................................................350 联机分析处理的要求...........................................................................................................351 对多维分析的需要.......................................................................................................351 快速的访问和强大的计算...........................................................................................352 其它分析方法的局限性...............................................................................................354 联机分析处理(OLAP)是用户需要的答案............................................................356 OLAP 的定义和规则...........................................................................................................357 OLAP 特征...................................................................................................................359 主要的特征和功能...............................................................................................................359 一般的特征...................................................................................................................360 维度分析.......................................................................................................................360 什么是超立方体?.......................................................................................................363 下钻和概括化的操作...................................................................................................364 多层次/多视角查看或旋转的操作..............................................................................365 OLAP 的使用和从中获得的好处...............................................................................366 OLAP 模型...........................................................................................................................366 变种的概述...................................................................................................................367 MOLAP 模型................................................................................................................367 ROLAP 模型.................................................................................................................368 ROLAP VS MOLAP.....................................................................................................368 OLAP 执行的考虑事项.......................................................................................................369 数据设计和准备...........................................................................................................369 管理和性能...................................................................................................................371 OLAP 平台...................................................................................................................373 OLAP 工具和产品.......................................................................................................374 执行步骤.......................................................................................................................375 本章总结...............................................................................................................................375 18 思考题...................................................................................................................................376 练习题...................................................................................................................................376 第十六章数据仓库和 Web ......................................................................................................378 本章目标...............................................................................................................................378 支持Web 的数据仓库.........................................................................................................379 为什么是Web? ..........................................................................................................379 技术的结合...................................................................................................................381 调整数据仓库使它能够支持Web...............................................................................382 作为数据源的Web ......................................................................................................383 基于Web 的信息传送机制.................................................................................................384 扩展了数据仓库的使用...............................................................................................384 新的信息策略...............................................................................................................386 数据仓库的浏览器技术...............................................................................................388 安全问题.......................................................................................................................390 OLAP 和Web.......................................................................................................................390 企业OLAP ...................................................................................................................390 Web-OLAP 方法...........................................................................................................391 OLAP 引擎的设计.......................................................................................................391 建立一个支持Web 的数据仓库..........................................................................................392 数据仓库的本质...........................................................................................................393 对如何实现数据仓库的考虑.......................................................................................394 将组件放在一起...........................................................................................................395 Web 处理模型..............................................................................................................396 本章总结...............................................................................................................................396 思考题...................................................................................................................................397 练习题...................................................................................................................................397 第十七章数据挖掘基础...........................................................................................................399 本章目标...............................................................................................................................399 数据挖掘是什么?...............................................................................................................400 定义数据挖掘...............................................................................................................400 19 知识发现过程...............................................................................................................401 OLAP VS 数据挖掘............................................................................................................403 数据挖掘和数据仓库...........................................................................................................404 主要的数据挖掘技术...........................................................................................................405 聚类(cluster) ............................................................................................................406 决策树...........................................................................................................................408 基于记忆的推理...........................................................................................................409 关联分析.......................................................................................................................410 神经网络.......................................................................................................................411 遗传算法.......................................................................................................................412 进入数据挖掘...............................................................................................................413 数据挖掘应用程序...............................................................................................................415 数据挖掘的收益...........................................................................................................416 在零售业的应用...........................................................................................................417 在通信行业上的应用...................................................................................................418 在银行和金融业的应用...............................................................................................419 本章总结...............................................................................................................................419 思考题...................................................................................................................................420 练习题...................................................................................................................................420 第十八章物理设计过程...........................................................................................................422 本章目标...............................................................................................................................422 物理设计步骤.......................................................................................................................422 建立规范.......................................................................................................................423 建立聚集计划...............................................................................................................423 确定数据分区方案.......................................................................................................424 建立聚簇选项...............................................................................................................424 准备索引策略...............................................................................................................425 安排存储结构...............................................................................................................425 完成物理建模...............................................................................................................426 物理设计要点.......................................................................................................................426 20 物理设计目标...............................................................................................................426 物理模型的组成...........................................................................................................428 规范的意义...........................................................................................................................429 数据库对象的命名.......................................................................................................429 物理存储.......................................................................................................................431 存储区数据结构...........................................................................................................431 优化存储.......................................................................................................................432 使用RAID 技术...........................................................................................................434 数据仓库索引.......................................................................................................................435 索引一览.......................................................................................................................435 B-Tree 索引..................................................................................................................437 位图索引.......................................................................................................................437 簇索引...........................................................................................................................438 索引事实表...................................................................................................................438 维表索引.......................................................................................................................439 提高性能的技术...................................................................................................................439 数据分区.......................................................................................................................440 数据聚簇.......................................................................................................................441 并行查询.......................................................................................................................441 汇总级别.......................................................................................................................442 参考一致性检查...........................................................................................................442 初始化参数...................................................................................................................442 本章总结...............................................................................................................................443 思考题...................................................................................................................................443 练习题...................................................................................................................................444 第十九章数据仓库部署...........................................................................................................445 本章目标...............................................................................................................................445 部署的主要任务...................................................................................................................446 完成用户接受...............................................................................................................446 执行初始加载...............................................................................................................447 21 准备用户桌面...............................................................................................................448 完成初始用户培训.......................................................................................................449 制订最初用户支持.......................................................................................................449 部署筹备.......................................................................................................................450 一个领航系统.......................................................................................................................451 什么时候领航系统数据集市有用?...........................................................
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值