简介
在数仓建设中,数据同步是最基础的一步,也是 ods 层数据的来源。数据同步 简而言之,就是把 业务库中的需要分析的数据表(或文件) 同步到 数仓中(hdfs)。

同步的方式可以分为3种:直连同步、数据文件同步、数据库日志解析同步。
下面将进行详细介绍。
详解
1、直连同步

直连同步是指通过定义好的规范接口api 和动态链接库的方式直连业务库。
优点:配置简单,实现容易,比较适合操作型业务系统的数据同步。
缺点:
1、直连的方式对源系统的性能影响较大,甚至可能拖垮业务系统;
2、数据量很大时,性能很差。
2、文件传输

原理:从源系统生成数据的文本文件(比如 csv、json 等),然后由文件服务器(如FTP服务器)传输到目标系统(hdfs),最后加载到数据库系统中。
日志类数据通常以文件的形式存在的,比较适合这种方式。
缺点:通过文件服务器上传、下载容易造成丢包,需要设置校验机制。
3、数据库日志解析同步

本文介绍了数仓建设中数据同步的三种常见方法:直连同步、文件传输(如CSV/JSON)和数据库日志解析。重点讲解了每种方法的优缺点,并以SQoop、Flume和DataX为例,展示了主流工具的应用。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



