往HBase中导入csv文件的方法

最新推荐文章于 2025-06-10 20:20:41 发布

幸运的Alina

最新推荐文章于 2025-06-10 20:20:41 发布

阅读量5.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hadoop学习笔记文章标签： HBase Dimporttsv

本文链接：https://blog.youkuaiyun.com/qq_27575895/article/details/90313208

本文介绍了如何将CSV文件批量导入到HBase中，包括将CSV上传至HDFS，创建HBase表，使用ImportTsv命令及参数设置，强调了列簇的重要性，并提到在没有列名时的处理方式。

在实际的操作中涉及到将批量的数据插入到HBase中，这样的话如果直接一条一条的通过put来进行插入，就显得尤其吃力了，在这里记录下自己所用到的方法，因为网上的资源很多都是千篇一律，然后需要配合自己的来弄，记录下对自己比较有用，以及在使用的过程中需要注意的地方。

创建了一个测试的csv文件，命名为test.csv，数据长这样子

首先将本地的csv文件上传到HDFS上去，这里采用命令的方式进行操作

hadoop fs -put /root/hadoop/hbasetest/test.csv /root/hadoop/input/test.csv

然后将上传到HDFS上的文件导入到HBase中，首先在HBase中建一个表用来存放这个文件的数据，

建表语句如下：

create 'test','baseinfo'

这里创建一个表名为test ，然后列簇名为baseinfo。

表创建好后可以采用describe tablename的命令进行查看，可以用count tablename的命令查看行数。

下面就是使用命令来进行操作，这里借用了mapreduce的包来进行导入。

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' -Dimporttsv.columns=HBASE_ROW_KEY,baseinfo:color,baseinfo:perfer test /root/hadoop/input/

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

幸运的Alina

关注关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hbase导入csv文件

liu137612432的博客

09-29

1890

hbase导入csv文件

hbase导入csv文件_csv导入HBase-阿里云开发者社区

weixin_39842918的博客

12-23

315

csv导入HBase0 前置example.csv文件echo '999999941017403,1471848231000,120.6817399807754,27.95172926917687,0,0' >example.csv问题用hadoop jar /opt/apps/hbase-1.1.1/lib/hbase-server-1.1.1.jar importtsv -Dimport...

2 条评论您还未登录，请先登录后发表或查看评论

hbase存储csv数据

02-27

简单的介绍了habse存储数据的样子和简单的hbase shell 使用

hbase表导入导出数据

最新发布

码不停歇的博客

06-10

157

hbase表导入导出数据。

hbase导入csv文件_HBase数据快速导入之ImportTsv&Bulkload

weixin_39982568的博客

12-23

531

导入数据最快的方式，可以略过WAL直接生产底层HFile文件(环境：centos6.5、Hadoop2.6.0、HBase0.98.9)1.SHELL方式1.1 ImportTsv直接导入命令：bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsvUsage: importtsv -Dimporttsv.columns=a,b,c 测试：1.1...

hbase导入csv文件_hbase集群导入csv文件

weixin_36251012的博客

12-23

210

小数据文件导入：样例hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.columns=HBASE_ROW_KEY,cf:name test /data/test.csv大数据文件导入：样例：1，mapreduce处理数据hbase org.apache.hadoop.h...

hbase导出csv，文本，html文件

03-01

描述中提到的方法是首先通过HBase的条件查询功能筛选出所需的数据，然后将这些数据导出到Hive中。Hive提供了更灵活的数据处理能力，可以方便地对数据进行聚合、筛选、排序等操作。一旦数据在Hive中准备就绪，可以将...

hbase调用ImportTsv导入csv文件时报错File does not exist

qq_45754165的博客

02-28

3741

问题背景在大数据存储课设中，任务要求是要把生成的原始数据存储到Hbase中。首先将csv文件传至了HDFS，而下一步将传至Hbase却出现了一个问题，耗费了数小时寻找问题解决方法，最终将数据成功导入到了hbase，特此记录。问题描述 hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=, -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:Admission_numb

将csv文件导入到hbase中

weixin_45890771的博客

12-28

7972

1.将csv文件拖到/opt下 2、将本地的csv文件上传到HDFS上去 3、之后将上传到HDFS上的文件导入到HBase中。首先在HBase中建一个表用来存放这个文件的数据： create_namespace 'Test' (没有命名空间先创建命名空间) create 'Test:test','info1','info2' 这里，命名空间为'Test'，表名为‘test’ ，列簇名为info1,info2 4、借用mapreduce的包，将csv文件导入...

hbase导入csv文件_HBase 数据导入 ImportTsv

weixin_42119866的博客

02-15

698

ImportTsv工具是通过map reduce完成的。所以要启动yarn.工具要使用jar包，所以注意配置classpath。ImportTsv默认是通过hbase api插入数据的[hadoop-user@rhel work]$ cat /home/hadoop-user/.bash_profile# .bash_profile# Get the aliases and functio...

hbase存储csv数据的代码实现

02-27

这是hbase对数据存储的代码实现，让你轻松秒懂hbase，

Hbase 导入CSV文件的两种方法

热门推荐

real向往的博客

12-03

1万+

要求把格式如下的数据导入到Hbase表中过程一、利用ImportTsv将CSV文件导入 1.先创建一个表（hbase-csv1），且列族为info [hadoop@MASTER ~]$ hbase shell hbase(main):002:0> create 'hbase-csv1','info' 2.把文件上传至HDFS #要上传的文件 [hadoop@MA...

python tts mp3_Twilio TTS直接转成AIFF还是MP3？

weixin_34431256的博客

12-24

190

从Twirio来的罗伯。在感谢您在尝试录制Twilio Say动词(也称为文本到语音)的输出时提供了更多颜色。如果你只是在寻找一些高质量的计算机语音录音，有几个更容易的选择，如TTS-API或iSpeech。在但是，如果您正在寻找一种快速的方法来准确地听到您的用户将从您的Say动词中无损地听到什么，这里有一种利用the parameter ^{}的方法。在第1步创建一个TwiML文档，其中包含您要...

hbase导入csv文件_Janusgraph数据导入初体验

weixin_42306055的博客

12-23

502

Janusgraph是一款分布式图数据库，官方文档版本现在仍处在0.3.1阶段，网上资源较少，作者分享一些自己的学习经验，希望大家互相学习共同进步。本文摘要：1.使用gremlin控制台连接hbase储存后端。2.将少量图数据导入hbase。3.进行简单的查询。注：本文操作均在linux单机环境下。第一部分：使用gremlin控制台连接hbase储存后端进入Janusgraph/conf目录拷贝创...

hbase导入csv文件_csv文件数据批量导入hbase1

weixin_35896668的博客

12-23

440

importjava.io.IOException;importjava.text.SimpleDateFormat;importjava.util.Date;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.client.Put;importorg.apache.hadoop.hbase....

CSV 文件中的数据用代码导入到 HBase

个人博客地址为http://elikhb.top/

04-24

591

每一行数据都被解析为一个字符串数组，然后将数组中的数据按照指定的列族和列名插入到 HBase 表中。方法中的代码段，首先判断是否已经存在名为 “house” 的表，如果不存在，则创建一个新的表，表中包含一个名为 “house” 的列族。方法创建了与 HBase 的连接，并设置了 HBase 的配置信息，如根目录地址。导入所需的包：导入了与 HBase 相关的一些类库，以及处理文件输入输出的类库。关闭连接：在程序的最后，关闭了与 HBase 的连接。创建 HBase 连接：通过。

导入csv到hbase

fanghailiang2016的博客

07-12

1449

准备工作先将我们需要导入hbase的那个csv传到hdfs文件系统上： bin/hdfs dfs -mkdir /user/mustafa/hbase/input bin/hdfs dfs -put /home/mustafa/Desktop/groups.csv /user/mustafa/hbase/input 在hbase中创建一张需要导入数据到其中的表 export HBASE_HOME=/data/home/software/hbase-1.2.0-cdh5.16.2 # 进入hb

使用mmdetection训练自己的数据集（记录）

整天梦游的小jerry

11-03

1682

简介商汤科技（2018 COCO目标检测挑战赛冠军）开源了基于Pytorch的目标检测工具mmdetection，支持Mask-RCNN，Fast-RCNN，Faster-RCNN等主流的目标检测框架。作者称mmdetection有三点优势：测试结果、训练速度、所需显存都有所改善。下面将记录一下我的测试过程。准备自己的数据集 mmdetection支持coco格式和voc格式的数据集，分别介绍这两种数据集的使用方式。 coco数据集官方推荐coco数据集按照以下目录形式存储，以coco2017数

hbase导入csv文件数据

12-30

### 导入CSV文件至HBase 为了将CSV文件的数据导入到HBase中，可以采用多种方法来实现这一目标。一种常见的方式是利用`ImportTsv`工具，该工具专为简化此类操作而设计[^1]。 #### 使用ImportTsv命令通过使用`ImportTsv`命令可以直接处理TSV（Tab-Separated Values）格式的文件，但对于CSV文件同样适用，只需调整分隔符参数即可。下面是一个基本的例子： ```bash hbase org.apache.hadoop.hbase.mapreduce.ImportTsv \ -Dimporttsv.separator=, \ -Dimporttsv.columns="HBASE_ROW_KEY,family:qualifier" \ tablename inputfile.csv ``` 此命令中的选项解释如下： - `-Dimporttsv.separator=`指定输入文件字段间的分隔字符，在这里设置成逗号`,`以适应CSV格式； - `-Dimporttsv.columns=`定义列族及其对应的资格器名称；其中`HBASE_ROW_KEY`表示行键； - `tablename`是要加载数据的目标表名； - `inputfile.csv`则是待导入的具体CSV文件路径。对于更复杂的场景，比如当CSV文件中含有多个不同的列族成员时，则可以在上述配置项里继续追加更多映射关系，形如`family1:qualifier1,family2:qualifier2,...`的形式。另外需要注意的是，在执行以上指令之前应当确保环境变量已经包含了必要的依赖库以及指向集群配置的相关信息，这通常意味着CLASSPATH需包含HBase核心JAR包和其他来自HBase lib目录下的资源文件，并且要能够访问含有`hbase-site.xml`配置文件的位置以便正确连接到特定的HBase实例上运行作业[^2]。最后值得注意的一点在于批量装载技术的应用价值——相较于传统的API调用来逐条记录地向数据库写入新纪录而言，这种方法绕过了标准的写入流程从而显著提高了效率尤其适合于大规模数据集的操作场合下应用[^3]。