数据实时同步简要介绍:
数据同步或数据集成一般选用两类技术或工具,即:
1、ETL(Extract-Transform-Load)工具,它是将数据从源系统加载到数据仓库的过程。用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。
2、CDC工具,全称Change Data Capture,变更数据捕捉,从数据库内部捕捉变更数据,将变更数据推送到推送到目的库中。CDC机制速度极快,数据精准,且与应用程序耦合少,可抽象脱离业务系统。
实时同步场景中因对数据的实时性要求较高,所以一般选用CDC工具。
特殊场景说明:
普通场景下,使用CDC工具解析源库日志信息,实时同步源库数据到目的地,如下图所示: 
但在一些特定业务场景中,为尽量减轻主数据库业务压力,一般设置一个备数据库,定期将主数据库中超过一定期限的数据迁移到备数据库中。备份时先将主数据库中超过一定期限未更新的数据复制到备数据库中,再将主库中已复制的数据删除。如下图所示: 
类似以上既有主库也有备库的情况,若要做数据的实时同步,则主库和备库都需要将数据实时同步到目的地,避免因为主库的备份动作导致目的端数据误删、重复等与源端产生不一致,如下图所示: 
这种情景下,主库、备库的表名、字段名完全一致,目的库需要正确识别同步数据来源于主库还是备库,并分类处理,保证目的库中数据与源端数据一致。以下介绍一种

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



