sqoop增量从sqlserver导入到hive表中

最新推荐文章于 2022-09-30 11:09:26 发布

原创

最新推荐文章于 2022-09-30 11:09:26 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive #sqlserver #mysql

这篇博客介绍了如何使用sqoop的metastore实现SQLServer到Hive的真正增量更新。首先配置metastore，然后创建并保存sqoop job，通过指定check-column和last-value进行增量导入。当新数据插入后，执行job即可将增量数据导入到Hive中。

1、走过的弯路

网上很多的博客介绍的是增量从某个数据库导入hive，其实就是使用类似于这种的sqoop语句，

sqoop import --driver com.microsoft.sqlserver.jdbc.SQLServerDriver --connect "jdbc:sqlserver://IP地址:1433;database=TS_Test" --username sa --password Test6530 --table data --target-dir '/user/hive/warehouse/data' --incremental append --check-column id --last-value 3 -m 1

我这里是sqlserver导入到hive中，我有一点被误导，说是增量，其中的参数last-value 是自动更新的，对last-vaalue怎么更新的？存储在哪里？.后来发现并不是。这里说的增量，就是给定一个范围抽取（不是全量的）。

2、真正的增量更新

我们可以使用sqoop提供的metastore，metastore它本质是一个hsql内存级数据库，用Metastore中保存-- last-value，通过这种方式进行增量的更新。
废话不说，直接上案例
1)首先需要配置metastore
首先需要选择一个节点放置metastore，我这里选择在主节点放置metastore，
打开master机器的sqoop-site.xml文件，（在SQOOP_HOME/conf/sqoop-site.xml ）

<property>
    <name>sqoop.metastore.server.location</name>
    <!--数据存放的目录-->
    <value>/usr/local/sqoop/tmp/sqoop-metastore/shared.db</value>
    <description>Path to the shared metastore database files.
    If this is not set, it will be placed in ~/.sqoop/.
    </descrip