数据挖掘系列之一:数据仓库初窥

本文介绍了数据仓库的概念,强调其作为企业级信息存储的重要性。详细解释了数据仓库的特点,包括面向主题、集成、随时间变化及非易失性,并讨论了其在联机分析处理(OLAP)中的应用。此外,还提供了斯坦福大学WHIPS项目的数据仓库体系结构概述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。

数据仓库收集了整个组织的主题信息,因此它是企业范围的。数据集市(data mart)是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。

数据仓库非常适合联机分析处理(OLAP)。OLAP操作包括下钻(drill-down)和上卷(roll-up),允许用户在不同的汇总级别观察数据。

数据仓库最早是Inmon W H于1992年提出:数据仓库是Subject-Oriented(面向主题的)、Integrated(集成的)、Time-Variant(随时间变化的,时间变异的)、Non-Volatile(非易失的)一系列用于管理和决策制定的数据集。(参考原文:Building the data bridge: the ten critical success factors of building a data warehouse和EIS and the data warehouse: a simple approach to building an effectivefoundation for EIS)

Stanford大学的WHIPS(WareHouse Information Prototype at Stanford)提出的数据仓库体系结构(如下图)中,底层是多个信息源,信息源可以是关系型数据或者其他数据,如Flat Files,HTML Docs,Knowledge base,Legacy Data等。包装器部件将信息整理成数据仓库中使用的数据模型,监视器部件负责对本地信息源中需要提取的数据及其变化做自动探测,并把它们报告给集成器。

当一个新的信息源连接到数据仓库或者某信息源状态发生变化,Monitor将新数据或者修改过的数据发给Integrator。Integrator负责把信息installing到DW中,其间可能还需要Filtering,Summary,Merging等操作。

数据仓库中包含大量的历史性信息,而底层的数据源一般不维护这些信息。因此,传统视图反映底层数据,而数据仓库反映底层数据的历史。

DW架构图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值