一、数据仓库
数据仓库的概念大家并不陌生,关于数据仓库的理论和应用已经非常成熟,持续不断地帮助高层决策者和业务人员做分析和决策。简单来说,数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合,数据仓库的展现形式一般是报表和数据图形。
传统的数据仓库通常具有以下几个特点:
1. 业务主题性:比如对一个生产型企业来说公司的主题域是产品、订单、销售商、材料等,要解决应用问题可能是库存、销售、销售商等。其有业务是面向主题的。
2. 系统集成性:在传统数据仓库中,集成是最重要的,由于计算和存储的成本原因,其数据需要从不同的数据源抽取过来并集中,其数据的冗余度需要尽可能的降低,因此数据进入数据仓库中需要进行转化、格式化、重新排列和汇总等操作,其所有数据具有单一物理特性,都是结构化方式存在。在系统架构方面,也是以集中式存储和计算方式存在,新一代的数仓采用分布式计算,但软件产品采用集中部署方式存在。
3. 非易失性:数仓系统会记录所有记录,与业务系统相比,它不会对记录进行变化操作(update和delete),它会保留所有记录的变化,但受限于成本和计算能力考虑&#