浅谈 数仓建设之 数据同步(离线)及 sqoop、flume、dataX 原理简介

本文介绍了数仓建设中数据同步的三种常见方法:直连同步、文件传输(如CSV/JSON)和数据库日志解析。重点讲解了每种方法的优缺点,并以SQoop、Flume和DataX为例,展示了主流工具的应用。

简介

在数仓建设中,数据同步是最基础的一步,也是 ods 层数据的来源。数据同步 简而言之,就是把 业务库中的需要分析的数据表(或文件) 同步到 数仓中(hdfs)。

在这里插入图片描述
同步的方式可以分为3种:直连同步、数据文件同步、数据库日志解析同步。
下面将进行详细介绍。

详解

1、直连同步
在这里插入图片描述

直连同步是指通过定义好的规范接口api 和动态链接库的方式直连业务库。

优点:配置简单,实现容易,比较适合操作型业务系统的数据同步。

缺点:
1、直连的方式对源系统的性能影响较大,甚至可能拖垮业务系统;
2、数据量很大时,性能很差。

2、文件传输
在这里插入图片描述
原理:从源系统生成数据的文本文件(比如 csv、json 等),然后由文件服务器(如FTP服务器)传输到目标系统(hdfs),最后加载到数据库系统中。

日志类数据通常以文件的形式存在的,比较适合这种方式。

缺点:通过文件服务器上传、下载容易造成丢包,需要设置校验机制。

3、数据库日志解析同步

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值