使用DataX将Hive表数据导出至MongoDB(2022年)

本文详细记录了使用阿里云DataX将Hive表数据导出到MongoDB的过程,包括DataX的安装、配置、环境变量设置、配置文件编写及错误排查。通过修改配置文件中`writeMode`参数解决了数据导入时的错误问题,成功实现了数据迁移。

目录

背景:

需要解决的问题:

安装DataX

2)下载地址

3)上传jar包

4)解压

5)自动检测脚本

配置环境变量

使用

1. 读取hdfs数据写入mongodb

1)查看官方模板

2)编写配置文件

3)测试生成的dataX配置文件

4) 编写导出脚本

注意错误:

解决方法是:


背景:

        在网上查了很多,都是关于MongoDB导入至Hive仓库的,很少有从Hive导出至MongDB的文章。最近因为兄弟部门在做【用户画像】,使用的存储介质是MongoDB(便于字段扩展),现在要用到数仓里面某些表的数据,这样问题就出现了:“怎么将Hive表的数据导出至MongoDB?”。

        因为MySQL导入到HDFS用的是Sqoop,网上查了Sqoop对关系型的数据库比较友好,对MongoDB这样的NoSQL不是太支持,所以想到了用【阿里的DataX】。经过调研,dataX确实可以解决此场景。

需要解决的问题:

【使用DataX将Hive表数据导出至MongoDB】

安装DataX

1)前置条件

- Linux

- JDK(1.8以上,推荐1.8)

- Python(推荐Python2.6.X)

2)下载地址

http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

3)上传jar包

cd /opt/software

--上传jar包

4)解压

tar -zxvf datax.tar.gz -C /opt/module/

5)自动检测脚本

cd datax/bin/

python datax.py /opt/module/datax/job/job.json

说明安装

配置环境变量

#DATAX_HOME

export DATAX_HOME=/opt/module/datax

export PATH=$PATH:$DATAX_HOME/bin

使用

1. 读取hdfs数据写入mongodb

1)查看官方模板

python bin/datax.py -r hdfsreader -w mongodbwriter

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the hdfsreader document:
     https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md

Please refer to the mongodbwriter document:
     https://github.com/alibaba/DataX/blob/master/mongodbwriter/doc/mongodbwriter.md

Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
to run the job.

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "hdfsreader",
                    "parameter": {
                        "column": [],
                        "defaultFS": "",
                        "encoding": "UTF-8",
                        "fieldDelimiter": ",",
                        "fileType": "orc",
                        "path": ""
                    }
                },
                "writer": {
                    "name": "mongodbwriter",
                    "parameter": {
                   
DataX 是阿里巴巴集团开源的一款数据同步工具,它支持多种数据源之间的同步,包括 Hive、MySQL、Oracle 等常见关系型数据库以及 HDFS、FTP 等非关系型数据源。下面介绍如何使用 DataXHive 和 MySQL 中的互导。 首先需要在本地和远程服务器上安装好 DataX。然后创建一个名为 job.json 的配置文件,内容如下: ``` { "job": { "content": [ { "reader": { "name": "hdfswriter", "parameter": { "path": "/user/hive/warehouse/myhive.db/myhive_table", "defaultFS": "hdfs://localhost:9000", "fileType": "orc", "column": [ "col1", "col2", "col3" ] } }, "writer": { "name": "mysqlwriter", "parameter": { "url": "jdbc:mysql://localhost:3306/test", "username": "root", "password": "123456", "table": "mysql_table", "column": [ "col1", "col2", "col3" ] } } } ], "setting": { "speed": { "channel": "3" } } } } ``` 该配置文件定义了一个数据同步任务,将 Hive 中的 myhive_table 导入到 MySQL 中的 mysql_table 中。其中,hdfswriter 和 mysqlwriter 分别数据源和目标源的类型,parameter 参数中定义了数据源和目标源的详细信息。column 参数定义了需要同步的列。 执行以下命令启动 DataX 任务: ``` python datax.py job.json ``` 该命令会按照配置文件中的定义开始数据同步任务。在数据量较大的情况下,可以通过修改 job.json 中的 speed 参数来调整数据同步的速度,以避免对源和目标服务器的负载过大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值