数据在传统数据库(SQL)和大数据之间的迁移方法总结

本文总结了数据在传统数据库(SQL)和大数据平台之间的迁移方法,包括MySQL到Hive、HBase到MySQL等多种场景,并提供了具体的技术手段和工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据迁移方法总结


为什么要将数据进行迁移?

进行数据处理工作的时候,很重要的一种工作内容就是:将数据在传统数据库(SQL)和大数据之间的进行迁移。为什么要这么做呢?这是因为,业务的持续使得数据量越来越大,因此原来存储数据的MySQL容量不够了,就需要将数据迁移到Hadoop生态中;或者,原始的业务数据存储在Hive或者HBase中,此时营销同事想要进行数据分析,他们只会用SQL,那这时候就要将Hadoop中的数据迁移到MySQL等关系型数据库中。

综上所述,数据在传统数据库(SQL)和大数据之间的迁移方法需要总结以下,以便理清自己的思路。

Excel:当数据量在六十万行以下的时候可以使用;

MySQL:每个数据库最多可创建20亿个表,一个表允许定义1024列,每行的最大长度为8092字节(不包括文本和图像类型的长度)。每个数据库的最大空间1048516TB,所以一个表可用的最大空间为1048516TB减去数据库类系统表和其它数据库对象所占用的空间。理论上能存储这么多,但实际上这样会很卡,所以大致能存亿级别条数的数据;

Hive:当数据量达到PB级别的时候,就需要使用了,用于处理离线数据;

HBase:同上,处理PB级数据,但适用于实时数据计算;


MySQL数据转移到Hive

利用kettle+xftp导入:https://blog.youkuaiyun.com/qq_34100655/article/details/81033022;


MySQL转移到HBase

使用Sqoop中间件:https://blog.youkuaiyun.com/qq_34100655/article/details/81092921;


Hive转移到MySQL


Hive转移到HBase


HBase转移到Hive

创建映射表格:https://blog.youkuaiyun.com/qq_34100655/article/details/81070216;


HBase转移到MySQL


MySQL转移到SQL Server

  • 方法一:用Python的pymssql、pymysql包写一个数据同步程序,Run一下程序,使得数据自动同步。这种方法适合同步每天的更新数据;

  • 方法二:利用第三方工具,如Navicat或kettle spoon。这种方法适合批量导入大量数据;
    https://blog.youkuaiyun.com/yan943789510/article/details/44196317


SQL Server转移到MySQL

方法同上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值