在初始化加载时,捕获源数据中的数据内容的变化不是很重要,因为很可能会导出整个数据源或其中的一部分。然而一旦初始加载完成,捕获源系统中的数据变化立即变成非常重要的任务。如果等到初始加载完成才开始规划数据变化的捕获技术,则将遇到很大的麻烦,捕获数据变化绝不是一个简单的任务,必须制定相应的策略来在项目中捕获源数据中不断增长的变化。
ETL 小组在后续的加载过程中负责捕获数据内容的变化。需求由用户提出,而这些需求的实际可行性由源系统的DBA小组决定(如果运气好的话)。更多的时候并不是这样,需要针对特定的情形做一些研究来决定最有可能的增量加载策略。在这一节,我们提供几种选项并讨论每一种的优缺点。当然,不必为每一种情形选择所有这些技术。选择在整个项目过程中最能满足每个ETL需求的方法。
为识别源系统中变化的数据制定适当的策略可能要进行一些分析工作。当分析源系统时,绝对不要假设所见即所得。在许多案例中,还有许多未加使用的甚至是禁止使用的审计列,或更糟糕一些的是完全不一致的列用法。确保为增量加载过程分配了足够的分析时间来调查和决定捕获数据内容变化的最佳方法。
ETL 小组在后续的加载过程中负责捕获数据内容的变化。需求由用户提出,而这些需求的实际可行性由源系统的DBA小组决定(如果运气好的话)。更多的时候并不是这样,需要针对特定的情形做一些研究来决定最有可能的增量加载策略。在这一节,我们提供几种选项并讨论每一种的优缺点。当然,不必为每一种情形选择所有这些技术。选择在整个项目过程中最能满足每个ETL需求的方法。
为识别源系统中变化的数据制定适当的策略可能要进行一些分析工作。当分析源系统时,绝对不要假设所见即所得。在许多案例中,还有许多未加使用的甚至是禁止使用的审计列,或更糟糕一些的是完全不一致的列用法。确保为增量加载过程分配了足够的分析时间来调查和决定捕获数据内容变化的最佳方法。
监测变化
当管理者谈论数据仓库维护时,他们最经常讨论的是保持数据最新,也就是数据真正反映了公司业务系统的状态。捕获源系统内容的变化对一个数据仓库的成功至关重要,数据内容的维护则依赖于增量加载过程。有几种捕获源数据变化的方法,每一种在它们相应的环境中都是有效的。- 使用审计列