《数据仓库》读书笔记：第二章

最新推荐文章于 2025-12-13 14:59:19 发布

原创最新推荐文章于 2025-12-13 14:59:19 发布 · 858 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#读书笔记 #数据仓库 #数据

数据仓库同时被 3 个专栏收录

4 篇文章

订阅专栏

数据库

4 篇文章

订阅专栏

SQL

3 篇文章

订阅专栏

本文是《数据仓库》读书笔记的第二章，详细介绍了数据仓库的定义、结构、面向主题的概念，以及粒度、分区、数据组织、审计、数据清理等方面的内容，强调了数据仓库在支持决策中的重要角色。

                    
                    第二章：数据仓库环境 

    a. 定义 

        i. 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。 

        ii. 数据仓库包含粒度化的企业数据。 

        iii. 扩充数据仓库使其包含“高速缓冲”或者“溢出”区域，通常称之为近线存储。里面的数据仅仅是数据仓库中的数据的扩充。 

    b. 数据仓库的结构 

        i.  

    c. 面向主题 

        i. 典型的主题域：顾客、产品、交易或者活动、政策等 

    d. 建立数据仓库的开发方法 

        i. 螺旋式，先开发一部分，再进化式开发另一部分 

    e. 粒度 

        i. 粒度指的是数据仓库中的数据单元的细节程度或综合程度的级别 

        ii. 细节程度越高，粒度级越低 

        iii. 双重粒度级 

        iv. 处理粒度问题 

            1) 建立一个服务于不同类型查询与分析的双重力度的多层数据仓库 

            2) 建立活样本数据库 

    f. 分区 

        i. 分区使得数据可以在小的分区的离散单元中进行管理，使得数据仓库中的数据装载变得简单，建立索引也更流畅，数据归档也更容易 

        ii. 分区设计方法： 

            1) 在DBMS/操作系统层 

            2) 在应用层 

    g. 数据仓库中的数据组织 

        i. 简单堆积 

            1) 图 

        ii. 轮转综合 

            1)  

        iii. 简单直接 

            1)  

        iv. 连续 

            1)  

    h. 审计与数据仓库 

        i. 在数据仓库中进行审计是可能的，但是审计带来的复杂性使得在其他地方更有意义 

    i. 数据仓库的同构/异构 

        i. 数据仓库中的数据按照下列标准划分： 

            1) 主题域 

            2) 表 

            3) 数据在表中的实现 

    j. 数据清理 

        i. 几种方式 

            1) 数据加入到失去原有细节的一个轮转综合文件上 

            2) 数据从高性能的介质转移到大容量介质上 

            3) 数据从系统真正被清除 

            4) 数据从体系结构的一个层次转移到另一个层次，比如操作层转移到数据仓库层 

    k. 报表与体系结构化环境 

    l. 档案数据的时间范围称为数据的操作窗口 

    m. 错误处理 

        i. 三种方式 

            1) 直接从源数据修改 

                a) 缺点： 

                    i) 数据集成被破坏 

                    ii) 更新必须在数据仓库环境中进行 

                    iii) 可能要修正很多条目 

            2) 加入修正条目 

                a) 缺点 

                    i) 可能要修正很多条目 

                    ii) 修正公式可能非常复杂以致无法修正 

            3) 重新设置修正日期为正确数据且不考虑以前的活动 

                a) 缺点 

                    i) 及时简单的约定 

                    ii) 不能对过去的错误进行解释