《数据仓库》读书笔记:第二章

本文是《数据仓库》读书笔记的第二章,详细介绍了数据仓库的定义、结构、面向主题的概念,以及粒度、分区、数据组织、审计、数据清理等方面的内容,强调了数据仓库在支持决策中的重要角色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 第二章:数据仓库环境
    a. 定义
    i. 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。
    ii. 数据仓库包含粒度化的企业数据。
    iii. 扩充数据仓库使其包含“高速缓冲”或者“溢出”区域,通常称之为近线存储。里面的数据仅仅是数据仓库中的数据的扩充。
    b. 数据仓库的结构
    i.
    c. 面向主题
    i. 典型的主题域:顾客、产品、交易或者活动、政策等
    d. 建立数据仓库的开发方法
    i. 螺旋式,先开发一部分,再进化式开发另一部分
    e. 粒度
    i. 粒度指的是数据仓库中的数据单元的细节程度或综合程度的级别
    ii. 细节程度越高,粒度级越低
    iii. 双重粒度级
    iv. 处理粒度问题
    1) 建立一个服务于不同类型查询与分析的双重力度的多层数据仓库
    2) 建立活样本数据库
    f. 分区
    i. 分区使得数据可以在小的分区的离散单元中进行管理,使得数据仓库中的数据装载变得简单,建立索引也更流畅,数据归档也更容易
    ii. 分区设计方法:
    1) 在DBMS/操作系统层
    2) 在应用层
    g. 数据仓库中的数据组织
    i. 简单堆积
    1) 图
    ii. 轮转综合
    1)
    iii. 简单直接
    1)
    iv. 连续
    1)
    h. 审计与数据仓库
    i. 在数据仓库中进行审计是可能的,但是审计带来的复杂性使得在其他地方更有意义
    i. 数据仓库的同构/异构
    i. 数据仓库中的数据按照下列标准划分:
    1) 主题域
    2) 表
    3) 数据在表中的实现
    j. 数据清理
    i. 几种方式
    1) 数据加入到失去原有细节的一个轮转综合文件上
    2) 数据从高性能的介质转移到大容量介质上
    3) 数据从系统真正被清除
    4) 数据从体系结构的一个层次转移到另一个层次,比如操作层转移到数据仓库层
    k. 报表与体系结构化环境
    l. 档案数据的时间范围称为数据的操作窗口
    m. 错误处理
    i. 三种方式
    1) 直接从源数据修改
    a) 缺点:
    i) 数据集成被破坏
    ii) 更新必须在数据仓库环境中进行
    iii) 可能要修正很多条目
    2) 加入修正条目
    a) 缺点
    i) 可能要修正很多条目
    ii) 修正公式可能非常复杂以致无法修正
    3) 重新设置修正日期为正确数据且不考虑以前的活动
    a) 缺点
    i) 及时简单的约定
    ii) 不能对过去的错误进行解释
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值