一、业务需求及其痛点
随着数字化转型,企业需要对各种销售及营销数据进行实时同步分析,例如销售订单信息,库存信息,会员信息,设备状态信息等等,这些统计分析信息可以实时同步到 Doris中进行分析和统计,Doris作为分析型数据库特别适合于对海量数据的存储和分析,我们只需要把MySQL的表单数据实时同步到Doris即可以实现实时数据分析能力。
二、Apache Doris介绍
Apache Doris 是一个现代化的 MPP 分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。
Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。可以使数据分析工作更加简单高效!
三、MySQL CDC实时同步工具选型
目前能免费使用的成熟CDC工具且同时支持MySQL+Doris的有Flink CDC和ETLCloud CDC等,这里我们主要考虑比较流行的Flink CDC和ETLCloud CDC,CDC的同步原理其实不同平台的原理都是一样的,都是读取数据库log然后通过清洗、转换或计算后存入目标仓库中
Flink CDC安装和使用难度比较大,没有可视化的CDC配置和监控界面对于不熟的用户安装相对比较麻烦,对于实时数据的加工和处理还需要写代码,没一点技术的用户根据搞不定,对于数据工程师来说难度太大