使用MRS CDL实现实时数据同步的极致性能

MRSCDL是一种用于从RDBMS捕获并复制到大数据系统的CDC事件解决方案,专注于高吞吐量和低延迟。它提供数据过滤、任务并行化、执行器多线程和分区表支持等功能,以提升性能。通过与SchemaRegistry集成,减少消息大小,提高处理速度。未来,MRSCDL将继续优化性能,确保实时数据湖分析的及时性和质量。

MRS CDL提供从多个RDBMS捕获CDC事件并复制到大数据生态系统的机制,以实现实时数据湖分析和实时DWH场景。解决性能问题是数据复制解决方案解决低延迟、高吞吐量使用情形的关键要求之一。实时数据复制性能通常使用以下两个属性来衡量

  • 吞吐量:在一个时间窗口中可以处理多少GB的事务日志卷、行或事务?
  • 时延–将更改的数据从源系统复制到目标系统所需的时间

MRS CDL旨在实现最大的数据复制吞吐量和低复制延迟。MRS CDL提供以下多种竞争特性,以实现最佳性能:

过滤数据

MRS CDL提供配置白名单和黑名单模式的机制,以过滤数据复制的表。白名单是与要复制的表的完全限定表标识符匹配的正则表达式列表;白名单中不包括的任何表都将从复制中排除。同样,黑名单是一个逗号分隔的正则表达式列表,它与要从复制中排除的表的完全限定表标识符匹配;将复制黑名单中不包括的任何表。此功能有助于仅从数据库事务日志中复制所需的数据,以提高整体吞吐量和效率。

任务并行化

MRS CDL为并行性和可扩展数据复制提供内置支持,只需很少的配置。它提供了将MRS CDL单个作业分解为许多配置数量的任务的机制。使用多个任务,MRS CDL提供了并行从多个数据库中获取CDC更改的机制。例如,如果架构中有30个表,则可以配置30个任务,这些任务将并行从每个表接收CDC数据,从而提高吞吐量。

在任务级别使用执行器多线程进行并行化

除了支持多个任务并行化之外,MRS CDL还支持任务内的并行化。它在任务中使用日志复制按顺序从RDBMS捕获CDC事件。但是,一旦我们捕获CDC事件,我们就会将其推送到内部内存队列,并使用执行器线程池并行处理,如下所示。这些线程将从内部队列中提取事件,处理它并推送到Kafka,从而提高性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值