数据加载与事务建模:从接口到仓库的全面解析
1. 数据加载考虑因素
在某些情况下,如代码描述表或其他不需要历史视角的简单结构,批量加载数据是合适的。但通常,需要更精细的处理过程。加载过程在处理接口时,需考虑以下问题:
- 删除情况 :应用中删除的数据在快照中如何呈现?有些应用设置标志表示删除,有些则从表中物理移除行。若为后者,加载过程需确定快照中缺失的数据。
- 数据变更 :接口是否包含变更时间戳?若无,就无法知道自上次接收后哪些项发生了变化。若此信息对后续处理必要,需在加载过程中实现变更检测逻辑。
- 数据时效性 :提取的数据记录是否为最新的,还是包含过时或未来数据?数据中是否有足够信息确定其状态?此类记录是否应处理,若不处理,占比多少?有时可通过修改提供数据的应用来消除这些项,从而显著减小接口大小。
2. 不同类型的快照接口
2.1 当前快照接口
当前快照接口提供代表数据当前活跃状态的数据,过时和已删除项不会出现在其中。这通常是为了减少数据传输量,或应用系统无法提供过时数据。它与完整快照的主要区别在于对接口中缺失数据的解释。例如,接收客户数据的当前快照时,不会收到不再活跃的客户信息,也不知道账户关闭的时间和原因。若此类信息对数据仓库很重要,当前快照接口就不合适,可能需要使用完整快照或增量接口。
2.2 增量接口
增量接口得名于数学中表示变化的希腊字母“Δ”,它提供对现有数据的更改。事务数据几乎总是以某种增量接口形式传输。所有增量接口都知道上次提取数据的时间,提取内
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



