Data Vault玩转数据仓库（三）

最新推荐文章于 2024-06-27 22:42:08 发布

原创

最新推荐文章于 2024-06-27 22:42:08 发布 · 451 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文深入探讨DataVault2.0版本的核心概念，包括ETL与ELT的区别及应用，STAGE与PSA层的功能与作用，以及推荐的自动化工具如ERWin和WhereScape，对比开源平台Roelantvos项目的优劣。

在Data Vault 2.0版本里，其不只是针对数据仓库的建模，同时也包含了架构，方法论以及实现。这篇挑几个概念，附上我个人对其的理解。同时也把这个系列的名字改成《Data Vault玩转数据仓库》。

ETL和ELT

ELT火了有段时间，百度上高雅的介绍很多，不扯别的，咱直接来点俗的：

- E就是抽取，数据从源系统进入到数据仓库的过程。

- T是指转换，类型转换，计算什么的都算在内。

- L加载，把结果加载到数据仓库里。

- E和L可能从汉语的角度看有些像，如果说区别的话就是前者是从源系统到数据仓库的，后者是数据仓库内的折腾。

- ETL就是把数据从源系统抽取的过程中做转换。

-- 缺点是这个过程也会消耗源系统的资源，可能对源系统造成影响，比如对方在做日结。

- ELT就是把数据先原封不动的放在DWH底层里，然后再在这个基础上做转换。

-- 这样除了抽取消耗点源系统的资源，剩下的处理都是消耗数据仓库的资源，降低对源系统的影响。

所以数据仓库项目通常建议用ELT的方法，除非源系统的数据和压力没那么大。

STAGE和PSA

这个概念好多地方的解释都不太一样，以下是我个人的理解：

STAGE层负责整合，源系统的数据一对一的放在这里，比如你的数据仓库是SQL Server，那么甭管源系统是Oracle还是MySQL，通过数据加载工具都变成SQL Server的加载到这里。

STAGE再往下就是PSA，跟STAGE不同的是PSA是要保留数据的历史状态的。关于如何保留目前主流有两个方法，一个是基于SCD2的方法论，一个是INSERT ONLY的方法论。相对支持后者的比较多一些，主要是因为SCD2对于更新或者删除数据的处理需要找到历史的数据进行物理更新（UPDATE VALUT_TO_DATE），在数据量很大的时候性

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。