新兴数据仓库设计与实践手册：从分层架构到实际应用（二）

最新推荐文章于 2025-12-23 21:53:08 发布

原创

最新推荐文章于 2025-12-23 21:53:08 发布 · 1k 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本手册将分为三部分发布，以帮助读者逐步深入理解数据仓库的设计与实践。

第一部分介绍数据仓库的整体架构概述；

第二部分深入讨论ETL在数仓中的应用理论，ODS层的具体实现与应用；

第三部分将围绕DW数据仓库层、ADS层和数据仓库的整体趋势展开；

通过这样的结构，您可以系统地学习每一层次的内容和设计原则。

前情提要：《新兴数据仓库设计与实践手册：从分层架构到实际应用（一）》https://mp.weixin.qq.com/s/_iYSM0sT_NOysducbxEJhg

数仓分层下的ETL

在不同数据层次、以及源系统到数据仓库之间的ETL（Extraction、Transformation、Loading）是数据仓库建设的核心，负责将分散在不同源系统的异构数据抽取到临时中间层，经过清洗、转换、集成后加载至数据仓库或数据集市。

数据仓库

通常，ETL规则的设计和执行在数据仓库实施中占据了60%到80%的工作量。而随着数据量的增加和非结构化数据和实时处理需求的增加，ETL架构也逐步被淘汰演变为EtLT架构参见文章：《ELT已死，EtLT才是现代数据处理架构的终点!》以更好地适应多样化的数据源和实时场景。

数据抽取（Extraction）

数据抽取负责将原始数据从各源系统中获取。传统的抽取方式包括初始化加载与定期刷新。初始化加载用于建立维表和事实表，将初始数据导入到数据仓库中；数据刷新则负责在源数据变动时追加或更新数据仓库内容。常见的刷新方式有定时任务和触发器。

在处理非结构化数据（如API接口数据、XML文件）和Binlog数据时，抽取步骤会更加复杂。

比如，需要通过交互接口（如HTTP API、SaaS API）获取非结构化数据，并对数据库的变更日志（Binlog）进行解析（如Oracle CDC、AWS RDS CDC、MongoDB CDC）。

这些数据在抽取后，通常需转换为仓库兼容的内存格式，以便后续的处理和集成，例如，将多种源数据统一转为WhaleTunnel/SeaTunnel格式供处理引擎使用。

轻量级转化/数据清洗（transform/Cleaning）

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DolphinScheduler社区 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。