ETL

最新推荐文章于 2025-05-29 10:31:31 发布

风满楼i

最新推荐文章于 2025-05-29 10:31:31 发布

阅读量108

点赞数

分类专栏：数据仓库文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_45204457/article/details/114851030

版权

数据仓库专栏收录该内容

7 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

ETL是大数据处理的关键步骤，包括全量与增量抽取、数据清洗及加载。全量用于数据量小、不易变化的场景；增量则用于大量数据的高效处理。清洗阶段涉及空值处理、数据验证、格式规范和转码。转化和加载阶段，通过ODS数据更新DW表，并将数据插入目标表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ETL
Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程

1、抽取
全量抽取：适用于数据量小且不容易判断其数据发生改变的诸如关系表，维度表，配置表等
增量抽取：适用于数据量大，为了节省抽取时间而采用的抽取策略
2、清洗
空值处理：将空值替换为特定值或直接过滤掉
验证数据正确性：把不符合业务含义的数据做统一处理
规范数据格式：比如把所有日期都规范成YYYY-MM-DD的格式
数据转码：把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值
数据标准统一：比如在源数据中表示男女的方式有很多种，在抽取的时候直接根据模型中定义的值做转化。
3、转化和加载
转换：用ODS中的增量或者全量数据来刷新DW中的表
加载：每insert数据到一张表都可以称为数据加载

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。