
数据仓库
卜塔
但行好事,莫问前程
展开
-
【数据仓库】什么是数据仓库?
数据仓库,英文名称Data Warehouse,简称DW。《数据仓库》一书中的定义为:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。数据仓库有如下四大特点:1. 面向主题数据仓库中的数据分为不同的主题域,所谓主题,就是决策者所关心的某一方面。如保险行业数据仓库中的原创 2017-10-23 22:51:13 · 5196 阅读 · 0 评论 -
【数据仓库】数据仓库的发展史
数据仓库的起源可以追溯到计算机的发展初期,并且数据仓库是信息技术长期发展的产物,在以后也会一直发展。(1)主文件、报表20世纪60年代初期,计算机领域的主要工作是创建运行在主文件上的单个应用。这些应用是以报表处理和程序为特征的,一般是以某种早期的程序设计语言如Fortran或COBOL编写的。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。比如我们想得到磁带上第20分钟处的数据,那时必须原创 2017-12-11 23:57:16 · 2349 阅读 · 0 评论 -
【数据仓库】数据仓库设计前如何粗估所需的存储空间大小?
设计数仓前,粗略估计其所占空间大小是非常重要的。只有估计出空间大小,才能确定数仓将要在什么粒度级别下进行设计。下图给出基本步骤:(1)确定数据仓库中将要创建的所有表通常情况下,总是有一到两个非常大的表和一些小表。(2)估计每张表中行的大小不需要确切的大小,只需要一个上限和一个下限。(3)估计一年内表中可能的最少行数和最多行数(4)使用和估计一年所占空间大小同样的方法原创 2017-12-14 15:16:20 · 1530 阅读 · 0 评论 -
【数据仓库】数据集市
概念数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立。一个数据集市面向单一主题,如销售、财务、市场等。数据集市的数据源可以是是操作型系统(独立数据集市),也可以是数据仓库(从属数据集市)。数据集市与数据仓库的区别数据集市设计数据集市主要用于部门级别的分析型应用,数据大都经过了综合,粒度级别较高。数据集市一般采用维度模型设计方法,数据结构使用星型模型或雪花模型原创 2017-12-31 22:31:34 · 1879 阅读 · 0 评论 -
【数据仓库】大数据定义
2012年Gartner公司将大数据定义为3V,即:大容量(Volume)、高流速(Velocity)、多样化(Variety),后来人们在3V基础上增加新的V-"Veracity",即真实性。现在人们普遍认可的大数据是具有4V,即:Volume、Velocity、Variety、Veracity,也就是大、快、多、真。1. Volume(生成和存储的数据量大)随着技术的发展,人们收集信息原创 2018-01-01 11:21:17 · 1119 阅读 · 0 评论 -
【数据仓库】Inmon与Kimball数仓理论对比
Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点,也有不同点。下面按照我的想法总结一下,理解如有偏颇,还请多多指正。1. 共同点(1)均极力推原创 2017-12-29 09:42:04 · 5383 阅读 · 0 评论