什么是数据仓库

本文介绍了数据仓库的定义及四个基本特征。数据仓库是面向主题、集成、不可更新且随时间变化的数据集合。面向主题按分析要求抽取主题;集成需从分散数据库抽取数据并处理;不可更新指不做UPDATE操作;数据随时间变化,会增加新内容、删旧内容并重新综合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

     数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化的数据集合。所以一般认为数据仓库具有四个基本特征:数据仓库的数据是面向主题的;数据仓库的数据是集成的;数据仓库的数据是不可更新的;数据仓库的数据是随时间不断变化的。
    主题是对应某一分析领域的分析对象,主题的抽取应该是按照分析的要求确定的。举个例子来说明什么是面向主题:MIS系统中有采购子系统,库存子系统,销售子系统,那么在DSS中要分析的主要有采购的商品,供应商,销售的商品,顾客等基本信息,所以数据仓库中分别对应着商品,顾客,供应商等主题。
    集成是指数据仓库中的数据是从原有的分散的数据库中抽取出来的。在数据集成过程中有许多工作要做。比如去掉噪声数据,也就是明显不合理的数据;还有统一源数据中所有矛盾的地方,比如字段名称的统一,单位的统一等;还有数据综合,也就是在数据进入数据仓库之前进行综合,比如将原来每天的数据按月综合。
    不可更新的意思是不对数据进行更新操作。因为数据仓库的数据主要是供决策分析用的,所涉及的数据操作主要是数据查询。但是着里的不更新只是不进行UPDATE的操作,不是指数据的追加和删除。
    数据是随时间不断变化的。数据仓库随时间变化不断增加新的数据内容,也不断的删去旧的内容。数据仓库中包含大量与时间有关的综合数据,随着时间的变化,数据要进行重新综合。比如今年的数据周综合,到了明年要对数据按季度进行综合。   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值