数据仓库与数据挖掘的OLAP技术
1.数据仓库
Ø 概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.
Ø 关键特征:
v 面向主题:围绕一些主题;关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理(这是数据库的任务)。排除对于决策无用的数据,提供特定主题的简明视图。
v 数据集成:由异种数据源(关系数据库,一般文件,联机事务处理记录)集成构成的;使用数据清理和数据集成技术。
v 随时间而变化:数据仓库的时间范围比操作数据库要长的多,每一个关键结构都隐式或显式地包含时间元素。
v 数据不易丢失:数据是只读的(除了初始转载),不需要事务处理,恢复,和并发控制。
Ø 建立数据仓库
数据集成,数据清理和数据统一
对于异种数据库的集成,传统的数据库做法:包装程序和集成程序 --》查询驱动
数据仓库做法:异种源的信息预先集成 --》更新驱动
Ø 操作数据库系统(OLTP)与数据数据仓库(OLAP)的区别
| 特征 |
OLTP |
OLAP |
| 用户和系统的面向性 |
顾客 |
市场 |
| 数据内容 |
当前详细的数据 |
历史汇总的数据 |
| 数据库设计 |
ER模型,面向应用的数据库设计 |
星型。雪花模型和面向主题的数据库设计 |
| 视图 |
当前的,企业内部的数据 |
经过演化的集成的数据 |
| 访问模式 |
事务操作 |
事务查询 |
| 任务单位 |
简短的事务 |
复杂的查询 |
| 数据访问量 |
数十个 |
数百万条 |
| 用户数 |
数千个 |
数百个 |
| DB规模 |
100M-数 |

本文是韩家炜教授《数据挖掘概念与技术》的学习笔记,主要探讨了数据仓库的关键特征,包括面向主题、数据集成、随时间变化和数据不可丢失。此外,还介绍了多维数据模型,如星型和雪花模型,以及数据集市的概念。OLAP操作如上卷、下钻、切片和切换也在文中被提及,这些技术在从数据仓库到数据挖掘的过程中起到关键作用。
最低0.47元/天 解锁文章
4892





