
hbase
文章平均质量分 71
大明湖里有蛤蟆
做一个磁石
展开
-
如何在linux shell中嵌入hbase命令
我们经常在shell脚本程序中用--------------------------------------hbase shell 【hbase命令】EOF---------------------------------------其中,EOF也可以换成其他任意的字符,大小写不论,只要成对出现即可。比如,可以:---------------------------原创 2015-06-02 14:36:46 · 4275 阅读 · 0 评论 -
Hbase 统计表行数的3种方式总结
有些时候需要我们去统计某一个hbase表的行数,由于hbase本身不支持SQL语言,只能通过其他方式实现。可以通过一下几种方式实现hbase表的行数统计工作:1.count命令最直接的方式是在hbase shell中执行count的命令可以统计行数。原创 2015-06-02 14:53:26 · 35002 阅读 · 0 评论 -
hbase建表时region预分区的方法
如果知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。这样做的好处是防止大数据量插入的热点问题,提高数据插入的效率。步骤:1.规划hbase预分区比如,要分成多少region,每个region的startkey和endkey是多少,然后将规划的key写到一个文件中;原创 2015-06-05 13:43:05 · 45969 阅读 · 4 评论 -
Hbase Bulk Loading与HBase API方式分析和对比
往hbase中批量加载数据的方式有很多种,最直接方式是调用hbase的API用put方法插入数据;另外一种是用MapReduce的方式从hdfs上加载数据,调用TableOutputFormat 类在reduce中直接生成put对象写入HBase(这种方式可以看作多线程的调用hbase API方式);但是这两种方式效率都不是很高。Bulk Load 方式调用MapReduce的job直接将数据输出成hbase table内部的存储格式的文件HFile,然后将生成的StoreFiles 加载集群的相应节点。原创 2015-06-04 10:29:17 · 1301 阅读 · 0 评论 -
hbase的bulk loading代码和执行方法
bulk loading的优缺点这里就不再赘述,在本博客的其他文章已经进行过详细的分析: Hbase Bulk Loading与HBase API方式分析和对比bulk loading的过程主要分为两部分,一部分为数据生成,一部分为数据加载。我们先来看看执行bulk loading的shell脚本,然后再分析代码。CLASSPATH=./bulkload.jar:/etc/原创 2015-06-05 15:27:37 · 1988 阅读 · 1 评论 -
HDFS和Hbase误删数据恢复
1.hdfs的回收站机制 客户有时会误删一下数据,是在生产环境下,误删数据会造成非常严重的后果。 2.hbase表删除恢复如果disable+drop误删了hbase表数据,数据不会放到回收站中,hbase有自己的一套删除策略。fs.trash.interval=0 以分钟为单位的垃圾回收时间,垃圾站中数据超过此时间,会被删除。如果是0,原创 2015-09-07 14:59:44 · 11279 阅读 · 1 评论 -
HDFS的快照原理和Hbase基于快照的表修复
前一篇文章《HDFS和Hbase误删数据恢复》主要讲了hdfs的回收站机制和Hbase的删除策略。根据hbase的删除策略进行hbase的数据表恢复。本文主要介绍了hdfs的快照原理和根据快照进行的数据恢复。原创 2015-09-21 15:49:24 · 4951 阅读 · 0 评论