一 . 业务背景
随着云计算的普及和大数据时代的到来,如何让各种数据源中的种类丰富的数据高效上云,以及经过云上大数据计算后,如何把计算结果回流到种类丰富数据源 ?或者云上各个产品之间的数据怎么进行同步 ? 各个云厂商或者大数据解决方案提供商都推出了各自的数据集成产品,本文将就常见的解决方案进行探讨。
典型的大数据业务集成场景
二. 数据集成需要解决的问题
数据集成的本质是实现不同数据源之间的数据交换,并且在交换过程中具备数据清洗转换的能力;当然,在实际应用场景中,还需要解决各种复杂网络问题,例如用户本地机房如何进行数据上云,云上不同VPC 内的数据源如何进行相互同步等。
一个商业数据集成产品通常需要具备以下功能:
1)支持种类丰富的数据源,并具备数据源的元数据管理
2)具备数据源的全量抽取和增量抽取能力,并且稳定高效
3)具备可视化的转换清洗能力
4)具备数据质量监控能力,能收集脏数据并对同步的数据做质量校验
5)完善的运维体系
6)开放性,方便第三方扩张数据源
7)系统水平扩展能力
8)具备复杂网络下的数据集成方案
三. 业内常见解决方案及痛点
目前业内公司的集成产品有很多,但技术选型上基本分为两类: