大数据迁移工具开发思路

最新推荐文章于 2025-09-30 05:16:32 发布

原创最新推荐文章于 2025-09-30 05:16:32 发布 · 422 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #数据迁移 #hive3.0.0 #sqoop-1.99.7 #ORC #text_file

数据存储MySQL中，迁移到hive中，建立数据仓库，为后期的大数据分析、主题订阅、消息分发提供海量数据支持。

涉及到的服务及中间件版本如下：

1、MySQL，版本：8.0.19

2、Hive，版本：3.0.0

3、sqoop，版本sqoop-1.99.7

数据迁移过程分析

1、首先使用sqoop Java api将数据从MySQL中迁移到hdfs系的指定路径；

2、在利用hive 的load data命令迁移到hive指定库表中；

3、原MySQL中库表新增、修改、删除数据，则利用binglog监测功能，实时插入到hive对应表中。

难点分析

hive 中库表格式支持textfile（默认）、ORC、Parquet 、Sequence，但是只用ORC格式，支持数据的update、delete功能。

sqoop做数据迁移，outputFormat可选项只有TEXT_FILE、SEQUENCE_FILE、PARQUET_FILE格式。

那么如何讲MySQL库表读取数据，最终迁移到ORC格式hive库表中呢？

1、利用SQoop工具，将MySQL数据迁移到hdfs中，数据存储格式选择text_file；

2、利用hive的load data 命令，将数据迁移到hive的库表中，库表采用text_file格式；

3、利用hive同时支持text_file、ORC格式，不同格式库表之间的数据可以相互迁移的特性，采用”insert into table_ORC select * from table_text“语句插入数据，最后删除text_file中间表。

最终就实现了把数据从MySQL迁移到ORC格式数据仓库中的目的。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

magic33416563 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。