ETL----如何抽取变化的数据

本文探讨了在ETL过程中如何监测和抽取变化的数据。通过利用审计列、数据库日志和优化的查询技巧,确保数据仓库的准确性。介绍了如何处理源系统的删除或覆盖记录,以及各种抽取优化策略,如强制列索引、避免使用NOT和函数等,以提高ETL效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        在初始化加载时,捕获源数据中的数据内容的变化不是很重要,因为很可能会导出整个数据源或其中的一部分。然而一旦初始加载完成,捕获源系统中的数据变化立即变成非常重要的任务。如果等到初始加载完成才开始规划数据变化的捕获技术,则将遇到很大的麻烦,捕获数据变化绝不是一个简单的任务,必须制定相应的策略来在项目中捕获源数据中不断增长的变化。 
        ETL 小组在后续的加载过程中负责捕获数据内容的变化。需求由用户提出,而这些需求的实际可行性由源系统的DBA小组决定(如果运气好的话)。更多的时候并不是这样,需要针对特定的情形做一些研究来决定最有可能的增量加载策略。在这一节,我们提供几种选项并讨论每一种的优缺点。当然,不必为每一种情形选择所有这些技术。选择在整个项目过程中最能满足每个ETL需求的方法。 
        为识别源系统中变化的数据制定适当的策略可能要进行一些分析工作。当分析源系统时,绝对不要假设所见即所得。在许多案例中,还有许多未加使用的甚至是禁止使用的审计列,或更糟糕一些的是完全不一致的列用法。确保为增量加载过程分配了足够的分析时间来调查和决定捕获数据内容变化的最佳方法。 


监测变化 

        当管理者谈论数据仓库维护时,他们最经常讨论的是保持数据最新,也就是数据真正反映了公司业务系统的状态。捕获源系统内容的变化对一个数据仓库的成功至关重要,数据内容的维护则依赖于增量加载过程。有几种捕获源数据变化的方法,每一种在它们相应的环境中都是有效的。 

  • 使用审计列 
        在大多数情形下,源系统都包含审计列。审计列附在每个
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值