EDW的概念进入中国后,很多企业建了了企业数据仓库,银行,证券,电信,移动,互联网纷纷开展EDW的建设,EDW的建设基本上是分期进行,不过在EDW上线后是一个持续支撑业务发展的平台,随着时间的推移,业务的迅速发展,EDW的后期维护,优化和变化是一个持续的过程,业务变化越快的企业面临的EDW的架构压力越大,很多匆忙上马的edw项目生命周期很短暂,能在业务架构若干次调整后生存下来的edw项目少之又少,究其原因,大部分是上线初期架构设计不合理造成,那么一套成熟的EDW具备什么特征呢?
1.层次清晰,edw的各层之间紧密联系,但跨层的干扰要尽量小,这样有助于在业务架构变化的时候把变化控制在合适的层次上,而不是牵一发而动全身。
2.模块化。模块化是一个老生常谈的话题,模块化的精神实质是对业务的深度理解和业务底层逻辑架构的深度理解,合理的模块划分,控制模块的复杂度,模块内部原子级别的模块段形式上的统一,这些看似简单的原理,如果用的好,在业务变化迅速的情况下抗压和抗变化能力就能充分体现出来。
3.基于元数据驱动。技术元数据和业务元数据纳入一套edw metadata系统中,元数据的累积需要很好的规范和技术平台化,统一元数据的好处是什么呢?大家可以想一下如下场景,一个业务发生了变化,究竟edw里面有多少地方需要做修改?这个问题是建设edw过程中经常会遇到的一个问题,在一个实施多年的edw系统里面,如元数据不过硬,不完整,这个问题将会是一个灾难性的问题,因为无法全面准确的判断受影响面基本上就宣告了改动的无目的性和针对性。元数据的基本作用就是能在这样的情况下准确的判断出edw的受影响面,当然其他的深度作用很多,这里不做详细阐述。
4.灵活的调动系统。调度系统是一套edw系统的骨架和筋脉。调度系统把edw的各个模块根据元数据的相关性灵活的组织起来,是一个纯动态的系统。调动系统要能做到负载均衡,并行调动,最基本的一条是调度的准确性是数据准确性的一个非常重要的基础要求,调度的准确性和模块业务逻辑的准确性是产生完整准确的分析数据的两大基础性要素。合理灵活的调动系统能充分的利用机器的资源,最大化的减少etl时间窗口,一套好的调度系统对建设edw的ROI指标非常重要。
5.自动监控系统。既然edw是企业数据仓库,其中指标,kpi会非常多,这些指标往往是业务决策的重要来源,如何在最后一层上保障数据的准确性。一套数据预警系统是产生高质量数据结果和最早发现业务问题的一个重要基础。
6.自动处理系统。edw建设的复杂性之一是企业it环境的复杂,出现问题的点会非常多,人工处理的经验一定要合理的抽象出规则,耐入到edw的自动处理系统中,使得edw系统具备尽可能多的自我处理能力。