Sqoop增量导入

本文介绍了Sqoop的增量导入概念,包括基于递增列的Append模式和基于时间列的LastModified模式。通过具体例子展示了如何配置和使用这两种模式进行数据导入,以实现高效的数据同步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.导入概念

在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用 import 关键字。

2.增量导入

当在生产环境中,我们可能会定期从与业务相关的关系型数据库向Hadoop导入数据,导入数仓后进行后续离线分析。这种情况下我们不可能将所有数据重新再导入一遍,所以此时需要数据增量导入。

增量导入数据分为两种方式:

  • 基于递增列的增量数据导入(Append方式)。
  • 基于时间列的数据增量导入(LastModified方式)。

工具描述

  • –check-column (col)
    用来指定一些列,这些咧在增量到日时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳类似。
    注意:这些被指定的列的类型不能是任意字符类型,如char、varchar等类型都是不可以的,同时–check-column可以去指定多个列。

  • –incremental (mode)

    • append:追加,比如对大于last-value指定的值之后的记录进行追加导入
    • lastmodified:最后的修改时间,追加last-value指定的日期之后的记录
  • –last-value (value) 指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一列

使用

1.append模式

mysql中有good表如下

DROP TABLE IF EXISTS `good`;
CREATE TABLE `good` (
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值