深入解析 DW 2.0 数据仓库:数据生命周期、结构与分析
1. 数据生命周期概述
在早期的数据仓库概念中,人们认为创建数据仓库时,只需将数据存储在磁盘上即可。然而,这仅仅是数据生命周期的开端。DW 2.0 数据仓库认识到数据具有生命周期,并将其划分为四个阶段:交互区、集成区、近线区和存档区。
1.1 数据生命周期各阶段
- 交互区(Interactive Sector) :数据快速进入该区域,这里的数据非常新鲜,可能只有几秒甚至几毫秒的时效性。例如,ATM 交易完成后,数据会立即被捕获并进入交互区,数据可能在不到一秒的时间内就进入该区域。数据进入交互区有两种方式:一是通过数据仓库外部的应用程序,在交易完成后将数据通过 ETL 传输到交互区;二是应用程序本身就是 DW 2.0 数据仓库的一部分,交易完成后直接将数据存入交互区。
- 集成区(Integrated Sector) :当数据在交互区稳定后,会通过 ETL 进入集成区。在集成区,数据摆脱了应用状态,成为企业级数据。只要数据的访问概率较高,就会一直留在集成区,通常为 3 - 5 年。当集成区数据量巨大且访问频繁时,可以使用近线存储作为缓存。
- 近线区(Near Line Sector) :这是一个可选区域,当数据访问概率显著下降时,可将数据转移到近线区。近线区在很多方面类似于集成区的扩展。
- 存档区(Archival Sector) :存档区存储的数据访问概率极低,数据可能来自近线区或集成区,通常
超级会员免费看
订阅专栏 解锁全文
1061

被折叠的 条评论
为什么被折叠?



