文章目录
1. 数据仓库基本概念
1.1 数据仓库的定义及特征
- 数据仓库是一个面向主题的、集成的、时变的并且非易失的,用于支持管理者决策过程的数据集合
- 数据仓库的特征:面向主题的,集成的,时变的,非易失的
1.2 数据仓库体系结构
- 底层-数据仓库服务器
使用一些后端工具和实用程序,对其他外部数据源的数据进行提取、清理、变换、装入和刷新,将高质量的数据更新到数据仓库。
数据集市,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库,是数据仓库的子集。 - 中间层:OLAP服务器
联机分析处理(Online Analytical Processing, OLAP)是数据仓库系统前端分析服务的分析工具,能快速汇总大量数据并进行高效查询分析,为分析人员提供决策支持。
使用OLAP相关模型将多维数据上的操作映射为标准的关系操作,或者直接实现多维数据操作
OLAP操作可以与关联、分类、预测、聚类等数据挖掘功能结合,以加强多维数据挖掘 - 顶层:前端客户层
包括数据挖掘工具(如趋势分析、预测等)、数据分析工具和查询与报告工具。
用于知识发现相关工作人员(如经理、主管、分析人员等)直接操作获取知识。
1.3 数据模型
- 数据模型是数据仓库建设的基础。
- 一个完整、灵活、稳定的数据模型对数据仓库项目的成功有重要的作用。
数据模型是整个系统建设过程的导航图
有利于数据的整合
排除数据描述的不一致性
可以消除数据仓库中的冗余数据 - 三级数据模型
概念模型:
对现实世界中问题域内的事物的描述,不是对软件设计的描述
逻辑模型:
对概念模型中的主题进行细化
定义实体与实体之间的关系,以及实体的属性
物理模型:
依照逻辑模型,在数据库中建表、索引等
为了满足高性能的需求,数据仓库可以增加冗余、隐藏表之间的约束等反第三范式操作
1.4 粒度
- 数据仓库的数据单位中保存数据的细化或综合程度的级别
粒度越小,细节程度越高,综合程度越低,查询类型越多 - 粒度越高,综合程度越高,查询的效率也越高
在数据仓库中可将小粒度的数据存储在低速存储器上,大粒度的数据存储在高速存储器上
2. 数据仓库设计
2.1 概念模型设计
- 对数据仓库涉及的实体和客观的实体进行抽象、分析,并在此基础上构建一个相对稳固的模型
- 需要充分了解业务及主要的关系,最终形成一个能够充分刻画