4、数据入湖方式
数据入湖有以下5种主要技术手段。
1)批量集成(Bulk/Batch Data Movement)。对于需要进行复杂数据清理和转换且数据量较大的场景,批量集成是首选。通常,调度作业每小时或每天执行,主要包含ETL、ELT和FTP等工具。批量集成不适合低数据延迟和高灵活性的场景。
【备注说明】离线数据批量入湖场景。
2)数据复制同步(Data Replication/Data Synchronization)。适用于需要高可用性和对数据源影响小的场景。使用基于日志的CDC捕获数据变更,实时获取数据。数据复制同步不适合处理各种数据结构以及需要清理和转换复杂数据的场景。
【备注说明】基于日志捕获的增量场景。
3)消息集成(Message-Oriented Movement of Data)。通常通过API捕获或提取数据,适用于处理不同数据
订阅专栏 解锁全文
1119

被折叠的 条评论
为什么被折叠?



