创建一个数据仓库之前,有几件事情必须弄明白。
- 数据仓库的原理。什么是数据仓库?它与数据库有什么不同?有哪些基本的模型可以选用?
- 数据仓库软件。比如数据仓库建模工具,ETL工具,报表制作软件,报表管理软件等。
- 数据仓库原理相关的书籍
- (2002 Wiley)The Data Warehouse Toolkit The Complete Guide to Dimensional Modeling 2nd
从书名就可以看出,本书围绕维度建模(Dimensional Modeling)的思想来展开,开头介绍了数据仓库的目标,组成部分,维度建模的优点等。后面的章节则按照不同领域的数据仓库建模一一举例。对于初学者来书,没有比例子更直接的了吧?!
- (2003)Mastering Data Warehouse Design Relational and Dimensional Techniques
本书相对比较全面,从数据仓库的概念,到如何创建数据仓库及其中一些必要的方面和细节,均按照顺序展开。从头到尾通读自然会获得好的效果,但如果你心急,完成前几章入门后,也可以直接跳至跟你的主题相关的部分。
- (2004)The Data Warehouse ETL Toolkit
为了获得高质量的数据,适当的ETL方法是少不了的。毕竟数据仓库的良好运行直接依靠ETL(Extract-Transform-Load)系统。本书就是从ETL切入数据仓库。
- (2008)The Data Warehouse Lifecycle Toolkit 2nd
本书详细讨论了数据仓库每个细节,正如标题所说,它的生命周期。对于一个数据仓库团队来说本书可能更适合。因为它从项目管理开始讲起,需求分析,数据仓库技术架构,维度模型的概念和设计方法,数据库设计及性能因素,ETL,商业智能等高级话题等,面面俱全,而且均按照顺序展开。
- (2010)Star Schema The Complete Reference
本书主要围绕数据仓库中比较流行的星型模型(Star Schema)展开,详细介绍了星型模型的基础,多星,维表设计,事实表设计,及性能方面的细节。
- 建模工具
- Pentaho BI Platform资料
- 最好的书籍便是(2009 Sep)Pentaho Solutions – Business Intelligence and Data Warehousing with Pentaho and MySQL。这本书叫你怎么用Pentaho来开发数据仓库,还对必须要的数据仓库知识做了介绍,一些高级应用也涉及了一些。如果你觉得数据仓库的知识太少,请参考第一部分列举的书籍。
- (2010 April)Pentaho 3.2 Data Integration Beginner’s Guide,(2010)Pentaho Kettle Solutions Building Open Source ETL Solutions with Pentaho Data Integration(Epub格式)和(2011 Jun Packtpub)Pentaho Data Integration 4 Cookbook是专门介绍PDI的,各种功能,按钮,组建如果使用,都在这几本书里了。
- (2009 Sep Packtpub)Pentaho Reporting 3.5 for Java Developers 是教你如果利用PRD设计报表的,你可以利用其自带的报表模版,也可以自己制作,制作基于JDBC或者Metadata的报表,发布到Pentaho BI Server等等,总之所有相关的知识都可以在这本书里找到。