数据分析:数据同步

本文介绍了数据同步的方法,包括使用中间件Sqoop进行数据双向流动,以及数据同步架构1.0和2.0的优缺点。此外,详细讨论了Hive的功能、优点、缺点及其基本操作,包括Hive与MySQL的数据导入和外部表的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析:数据同步

一、数据同步
1.1 中间件Sqoop

在这里插入图片描述

Sqoop连接数据的两端,左边是我们比较常用的业务数据库,右边是大数据的组件,Sqoop作为顶级的数据同步中间件,可以实现数据的双向流动,后面会介绍在Docker中具体容器中实行Sqoop的配置、执行命令。

1.2 数据同步架构1.0

背景:第一步建立数据仓库,数据仓库建模的时候,未经过任何加工处理的原始的数据层称之为ODS,最原始的输入数据,对于业务的DB数据一般存储于MySQL,当我们采集完之后需要导入到Hive当中。如果准备高效地将MySQL数据同步到Hive当中,一般是批量地采集数据,然后load到hive当中,优点是实现起来很简单,但是随着业务规模发展,select一张表耗时较久,产生慢查询,而且Hive不支持更新、删除等原语。

在这里插入图片描述

1.3 数据同步架构2.0

CDC是指change、data、catch,Merge是指归类合并,增量地去捕获改变的数据并且把它们在某具体节点进行Merge操作,其实就是利用My

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值