HBase_数据批量导入

最新推荐文章于 2024-01-18 02:11:35 发布

原创最新推荐文章于 2024-01-18 02:11:35 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hbase

HBase 专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍如何使用HBase自带的lib包中的importtsv和completebulkload工具进行数据批量导入。首先需配置HBase环境并复制配置文件到Hadoop集群各节点；然后将待导入数据上传至HDFS；接着通过importtsv命令对数据进行预处理；最后用completebulkload命令将预处理后的数据加载进HBase表。

使用HBase自带的lib包下的hbase-server-xxx.jar中的importtsv和completebulkload导入数据

1.首先需要在Hadoop集群中配置HBase的环境

1.复制hbase-site.xml$HADOOP_HOME/etc/hadoop/
2.编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh,在最后增加一行,意思是将hbase的lib下的所有jar加入到hadoop的classpath目录下。

exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/lib/*

3.将上述两个文件内容复制到集群其他节点

2.将数据上传到HDFS，例如我上传到了/input/hbase/music
3.执行命令，这条命令比较长,实际上是对数据进行了预处理，放到输出路径下。

hadoop jar jar路径 importtsv -Dimporttsv.bulk.output=HDFS输出路径 -Dimporttsv.columns=HBASE_ROW_KEY,列族:列键 表名 HDFS输入路径

比如：

hadoop jar /home/hadoop/apps/hbase/lib/hbase-server-1.3.1.jar importtsv -Dimporttsv.bulk.output=/user/hadoop/tmp -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:singer,info:gender,info:type,info:client music /input/music

4.执行命令,将处理后的数据放入hbase

hadoop jar jar包路径 completebulkload 预处理后的路径 表名

例如：

hadoop jar /home/hadoop/apps/hbase/lib/hbase-server-1.3.1.jar completebulkload /user/hadoop/tmp music

5.查看hbase数据库

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我是一只小小小小小鸟

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HBase的批量加载操作：优化大数据处理中的HBase数据导入

CodeHeroicX的博客

09-04

479

为了提高数据导入的效率，HBase提供了Bulk Load（批量加载）操作，它能够以更高的速度将数据加载到HBase表中。在上述代码中，我们首先创建了HBase的配置对象，并设置了要加载数据的目标表名。接下来，我们创建了一个批量加载的作业，并设置了输入和输出的格式。通过以上代码，你可以方便地使用HBase的批量加载操作将大量数据高效地导入到HBase表中。批量加载操作的原理是将数据预先处理成HBase所需的HFile格式，然后直接将HFile文件加载到HBase表中。需要注意的是，我们在代码中使用了。

HBase 数据导入批量导入 BulkLoad ImportTsv HFile格式

是个好男人的博客

09-20

1232

网址：https://www.jianshu.com/p/2b4390310345 1.BulkLoad介绍 BulkLoad是HBase将海量数据写入到集群的一种方式。运行一个Mapreduce作业，使用HFileOutputFormat输出HBase数据文件，使得输出的HFile文件可以适应单个region，使用TotalOrderPartitioner类将map输出结果分区到各个不同的key区间中，每个key区间都对应着HBase表的region。之后使用completebulkload工具将..

参与评论您还未登录，请先登录后发表或查看评论

HBase批量导入操作

JinVijay的博客

02-08

1436

shell--buckload 数据准备 1,zss,23,M 2,lss,33,M 3,fj,35,F 4,ny,42,M 5,xq,44,F 1)在hbase中创建表 create 'tb_friends' , 'cf' 2) 使用shell命令将数据转换成hfile文件 hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \ -- 使用类执行操作 -Dimporttsv.separator=, \ --指定行数据的字段分隔符 -D

hbase大规模数据写入的优化历程

weixin_30528371的博客

06-04

624

业务背景：由于需要将ngix日志过滤出来的1亿+条用户行为记录存入Hbase数据库，以此根据一定的条件来提供近实时查询，比如根据用户id及一定的时间段等条件来过滤符合要求的若干行为记录，满足这一场景的技术包括：Solr，Elasticsearch，hbase等，在此选用了Hbase来实践。 step 1 : 直接hbase建表，然后读取记录文件逐条写入Hbase。由于hbase实际的写...

【Hbase批量插入数据】

小猪de博客

08-30

3011

Hbase批量写入数据

Hbase通过命令将数据批量导入的方法

小强签名设计的博客

12-12

3581

抛砖引玉： hbase建表： hbase(main):003:0> create 'people','0' 将提前准备好的数据上传到hdfs： [hadoop@h71 ~]$ vi people.txt 1,jimmy,25,jiujinshan 2,tina,25,hunan [hadoop@h71 ~]$ hadoop fs -mkdir /bulkloa

基于Apache HBase的CSV数据批量导入与操作工具.zip

最新发布

09-08

基于Apache HBase的CSV数据批量导入与操作工具项目简介本项目是一个基于Apache HBase的工具，旨在从CSV文件中批量导入数据到HBase数据库，并提供基本的数据操作示例。HBase是一个分布式、可扩展的大数据存储...

java hdfs导入hbase_使用BulkLoad从HDFS批量导入数据到HBase

weixin_30695909的博客

02-26

718

在向Hbase中写入数据时，常见的写入方法有使用HBase API，Mapreduce批量导入数据，使用这些方式带入数据时，一条数据写入到HBase数据库中的大致流程如图。数据发出后首先写入到雨鞋日志WAl中，写入到预写日志中之后，随后写入到内存MemStore中，最后在Flush到Hfile中。这样写数据的方式不会导致数据的丢失，并且道正数据的有序性，但是当遇到大量的数据写入时，写入的速度就难以...

精选资源

HBaseClient:HBase客户端数据管理软件

05-12

HBase客户端数据管理软件概要说明类似PL/SQL，是一个HBase数据库的客户端数据管理软件。是免费开源的软件。基于XJava，使用xml配置文件绘制可视化界面。可视化界面操作表表的定义、编辑、删除；数据数据的...

apache_hbase_reference_guide.pdf

06-21

3. 批量导入：在进行大批量数据导入时，介绍了如何优化HBase的操作。 **知识点八：HBase的高级特性** 1. 操作和性能配置选项：介绍了优化HBase操作和性能的各种配置选项。 2. 安全性：提供了Securing Apache ...

hbase海量数据的全量导入方法

05-10

hbase海量数据的全量导入方法，大数据导入。

HBase数据大批量导入方式总结和对比

xiaohu21的博客

08-30

3837

HBase数据导入 1. 背景在实际生产中，海量数据一般都不是直接存储在HBase中，这时候就需要一个数据导入到HBase的步骤上一篇博客讲述了可以通过java api的方式或者shell 客户端方式导入或者创建数据，但这对于实际生产中海量数据导入来说，速度和效率都太慢了，所以我们需要使用其他方式来解决海量输入导入到HBase的问题利用HBase底层文件是HFile形式存储再HDFS中，所以如果能够直接生成HFile的话，这时候再让HBase从HFile中读取数据，就会快很多。 2. 批量数据导入

HBASE-1.2.4批量导入_ImportTsv

大杂烩

01-06

2253

1、先把log.txt上传至hdsf。 2、在hbase中定义好表T_SYS_LOG。 3、bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns='HBASE_ROW_KEY,info:val' '-Dimporttsv.separator=|' T_SYS_LOG /tmp/log.txt

5.hbase 批量导入数据

文洲的专栏

03-13

3254

Bulk Loading Importtsv 生成HFile 导入HBase 自定义MR 生成HFile 导入HBase 注意事项源码下载 Bulk Loading 向hbase写入数据常用两种方式：客户端 API写入 Mapreduce任务TableOutputFormat格式输出然而，对于超大量的数据写入，这两种方式都不合适，会非常占用内存和耗时而且JVM GC和...

HBase快速导入数据--BulkLoad

cihongmo6452的博客

02-09

180

Apache HBase是一个分布式的、面向列的开源数据库，它可以让我们随机的、实时的访问大数据。但是怎样有效的将数据导入到Hbase呢？HBase有多种导入数据的方法，最直接的方法就是在MapReduce作业中使用TableOutputFormat作为输出，或者使用标准的客户端API，但是这...

HBase结合MapReduce批量导入