Hbase表数据的导入和导出

Hbase没有提供类似于hive根据已有表的建表建表语句,如在hive中创建一个和已有表表结构完全一样的表可执行SQL:create table tbl_test1 like tbl_test,在hbase只能采用笨办法,将其表结构拷贝出来建表。如:

稍作整理:

create 'solrHbase2', {NAME => 'f1', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '1', COMPRESSION => 'SNAPPY', MIN_VERSIONS => '0',KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

需要将原表结构中的TTL => 'FOREVER'去掉才能建。

1. 导出数据

使用hbase org.apache.hadoop.hbase.mapreduce.Driver export tablename hdfspath

或hbase org.apache.hadoop.hbase.mapreduce.Export tablename hdfspath

eg:hbase org.apache.hadoop.hbase.mapreduce.Driver export solrHbase /home/hdfs/export

此命令可加参数:

解释如下:

Usage: Export [-D <property=value>]* <tablename> <outputdir> [<versions> [<starttime> [<endtime>]] [^[regex pattern] or [Prefix] to filter]]

 

  Note: -D properties will be applied to the conf used.

  For example:

   -D mapred.output.compress=true 输出压缩

   -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec 压缩方式

   -D mapred.output.compression.type=BLOCK 按块压缩

  Additionally, the following SCAN properties can be specified

  to control/limit what is exported..

   -D hbase.mapreduce.scan.column.family=<familyName> 列簇

   -D hbase.mapreduce.include.deleted.rows=true 

   -D hbase.mapreduce.scan.row.start=<ROWSTART> 开始rowkey

   -D hbase.mapreduce.scan.row.stop=<ROWSTOP>  终止rowkey

For performance consider the following properties:

   -Dhbase.client.scanner.caching=100 客户端缓存条数

   -Dmapred.map.tasks.speculative.execution=false

   -Dmapred.reduce.tasks.speculative.execution=false

For tables with very wide rows consider setting the batch size as below:

   -Dhbase.export.scanner.batch=10 批次大小

输入命令后会生成mapreduce作业,不想全部将表数据导出,可采用参数-D hbase.mapreduce.scan.row.start=<ROWSTART>和-D hbase.mapreduce.scan.row.stop=<ROWSTOP>指定rowkey范围导出数据。如导出指定rowkey范围的数据:

 hbase org.apache.hadoop.hbase.mapreduce.Export -D hbase.mapreduce.scan.row.start=00 -D hbase.mapreduce.scan.row.stop=0d solrHbase /home/hdfs/export

这里的开始rowkey 00和结束rowkey 0d是rowkey的开头部分,该表是做过预分区的,在hbase的控制台上看:

1. 导入数据

hbase org.apache.hadoop.hbase.mapreduce.Driver import tablename hdfspath

或hbase org.apache.hadoop.hbase.mapreduce.Import tablename hdfspath

Import也有一些使用说明:

将刚刚导出的数据导入新表中:

hbase org.apache.hadoop.hbase.mapreduce.Import solrHbase2 /home/hdfs/export

输入命令生成mapreduce作业,完成后可查看新表数据是否导入成功。

 

<think>好的,我现在需要帮助用户解决如何通过HBase脚本导出数据的问题。首先,我需要回忆一下HBase的相关知识,并结合提供的引用内容来整理答案。 根据用户提供的引用,特别是引用[3]引用[4],提到了使用HBaseimport工具Sqoop来进行数据导入导出。用户特别提到使用脚本导出数据,可能需要用到HBase自带的导出工具或者MapReduce作业。 首先,HBase导出通常可以使用`Export`工具,这是一个MapReduce作业,能够将数据导出到HDFS。这个工具需要指定输出路径,用户可能需要在命令行中运行。例如,命令可能类似于`hbase org.apache.hadoop.hbase.mapreduce.Export <名> <输出路径>`。引用[3]中的import工具用法类似,所以export应该也是对应的。 另外,用户可能需要将数据导出到本地文件系统,这时候可能需要结合使用导出到HDFS后再用hdfs命令下载,比如`hadoop fs -get`。或者使用Sqoop将数据HBase导出到关系型数据库,如引用[4]所述,但用户可能更关注HBase本身的导出方法。 接下来,用户可能需要一个脚本示例,比如Shell脚本,来执行这些命令。需要确保脚本中正确使用HBase的命令,并且处理可能的参数,比如输出路径。同时,权限路径是否存在也是需要考虑的问题。 还需要注意,如果用户的数据量很大,导出可能需要一定时间,并且要确保HBase集群HDFS有足够的资源。另外,导出后的数据格式可能需要用户进一步处理,比如SequenceFile或者其他格式,用户可能需要了解如何读取这些文件。 最后,根据引用[2],提到使用Python操作HBase,虽然用户主要问的是脚本导出,但或许可以提到其他方法,比如使用Thrift API或者HappyBase库,但可能超出当前问题范围,暂时先集中在Shell脚本方法上。 总结步骤:1. 使用Export工具导出到HDFS;2. 从HDFS下载到本地;3. 编写Shell脚本自动化这个过程。需要给出具体的命令示例脚本,并说明注意事项,比如版本兼容性、路径设置等。</think>### HBase使用脚本导出数据的方法及示例 在HBase中,导出数据的常用方法包括**使用内置的MapReduce工具**或**结合HDFS命令实现数据迁移**。以下是具体操作步骤脚本示例: --- #### **方法1:使用HBase Export工具(推荐)** HBase自带的`Export`工具可以通过MapReduce作业将数据导出到HDFS,支持全或按时间范围导出。 **操作步骤:** 1. **执行导出命令**: ```bash hbase org.apache.hadoop.hbase.mapreduce.Export <名> <HDFS输出路径> ``` - 示例:将`student`导出到HDFS的`/bak/student`路径: ```bash hbase org.apache.hadoop.hbase.mapreduce.Export student /bak/student ``` 2. **从HDFS下载到本地**: ```bash hadoop fs -get /bak/student /本地路径 ``` **脚本示例**(保存为`export_table.sh`): ```bash #!/bin/bash TABLE_NAME="student" HDFS_EXPORT_DIR="/bak/student" LOCAL_SAVE_DIR="/home/user/backup" # 导出到HDFS hbase org.apache.hadoop.hbase.mapreduce.Export $TABLE_NAME $HDFS_EXPORT_DIR # 下载到本地 hadoop fs -get $HDFS_EXPORT_DIR $LOCAL_SAVE_DIR echo "导出完成,数据保存在:$LOCAL_SAVE_DIR" ``` --- #### **方法2:结合Sqoop导出到关系型数据库** 若需将HBase数据导出到MySQL等关系型数据库,可通过Sqoop工具实现[^4]。 **示例命令**: ```bash sqoop export \ --connect jdbc:mysql://localhost/mydb \ --username root \ --password 123456 \ --table student \ --export-dir /hbase/data/default/student ``` --- #### **注意事项** 1. **版本兼容性**:`Export`工具依赖HBaseHadoop版本,需确保环境一致。 2. **路径权限**:HDFS输出路径需有写入权限。 3. **数据格式**:导出数据为SequenceFile格式,需通过HBase的`Import`工具恢复[^3]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值