hbase数据迁移-利用export/import

最新推荐文章于 2025-06-10 20:20:41 发布

CentOS_Pc

最新推荐文章于 2025-06-10 20:20:41 发布

阅读量766

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hbase 数据迁移大数据

本文链接：https://blog.youkuaiyun.com/CentOS_Pc/article/details/87710721

大数据专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍HBase数据迁移的两种方法：基本数据导入和大量数据导入，涵盖数据导出、移动、导入及验证的全过程，并针对大量数据导入时可能遇到的内存问题提供解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据导入方式一：基本数据导入
   第一步：数据从目标集群导出
       hbase org.apache.hadoop.hbase.maprduce.Export 表名 /导出表的hdfs路径
       支持增量导入在原有的导入命令下添加版本号和时间戳
       hbase org.apache.hadoop.hbase.maprduce.Export 表名 /导出表的hdfs路径版本号时间起点时间结束
   第二步：将数据从hdfs移动到本地
       hadoop fs -get /hfds路径 /指定本地导入路径
   第三步：将备份文件拷贝到新集群的指定目录
       通过hadoop指令上传到新集群的hfds中 hadoop dfs -put /本地路径 /集群路径
   第四步：导入数据到hbase中
       1：在hbase中创建一张一样的表 create '表名'，'表结构'
       执行hbase导入命令 hbase org.apache.hadoop.hbase.maprduce.import 创建的表名 /hfds路径
       hbase org.apache.hadoop.hbase.maprduce.import 表名 /hfds路径
   第五步：查看是否导入
       scan "表名"
数据导入方式二：大量数据导入
   hbase org.apache.hadoop.hbase.maprduce.Export 导出表名导出的hdfs路径
   可能会出现数据导出占用过多的内存，导致NameNode节点被杀死。可以通过设置mapred-site.xml中的map和redudce任务内存配置进行修改