
HBase
文章平均质量分 58
SAN_YUN
这个作者很懒,什么都没留下…
展开
-
HBase的Cache
介绍BucketCache前,先对HBase的Cache做个介绍: 一.HBase在读取时,会以Block为单位进行cache,用来提升读的性能; 二.Block可以分类为DataBlock(默认大小64K,存储KV)、BloomBlock(默认大小128K,存储BloomFilter数据)、IndexBlock(默认大小128K,索引数据,用来加快Row所在DataBlock的定位)...原创 2012-12-20 23:22:20 · 201 阅读 · 0 评论 -
HBase二级索引与Join
二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍。理论目标在...原创 2013-12-26 15:59:41 · 148 阅读 · 0 评论 -
HBase在淘宝主搜索的Dump中的性能调优
目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据,对延时要求高。在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考。环境:Hadoop CDH3U4 + HBase 0.92.11、 尽可能用LZO数据使用LZO,不仅可以节省存储空间尤其是可以提高传输的效率,因...原创 2013-12-26 16:01:11 · 115 阅读 · 0 评论 -
hbase Region Server定位
参考:http://iwinit.iteye.com/blog/1811265 HBase的table是该region切分的,client操作一个row的时候,如何知道这个row对应的region是在哪台Region server上呢?这里有个region location过程。主要涉及到2张系统表,-ROOT-,.META.。其结构见图 在zookeeper的/hbase...原创 2013-12-28 17:32:57 · 232 阅读 · 0 评论 -
hbase上应用lucene创建索引及检索
hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便地创建。 以下为测试代码,完成读取一张hbase上记录url和用户id的表,对其创建索引并进行简单的基于url的索引的代码。当取到search的结果后,就可以拿到想要的数据了。由于分...原创 2013-12-28 18:23:13 · 223 阅读 · 0 评论 -
hbase文档集合
问题总结一次奇异的getRegionInfo异常定位两次hbase丢失数据的故障及原因分析hbase中regionserver常见的oom原因分析hbase写被block住的典型案例分析HBase性能优化总结:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-sectio...原创 2013-12-28 18:44:30 · 162 阅读 · 0 评论 -
HBase in 2013
原文:http://yanbohappy.sinaapp.com/?p=434 2013年马上就要过去了,总结下这一年HBase在这么一年中发生的主要变化。影响最大的事件就是HBase 0.96的发布,代码结构已经按照模块化release了,而且提供了许多大家迫切需求的特点。这些特点大多在Yahoo/Facebook/淘宝/小米等公司内部的集群中跑了挺长时间了,可以算是比较稳定可用了。...原创 2013-12-31 20:50:02 · 203 阅读 · 0 评论 -
Facebook数据仓库揭秘:RCFile高效存储结构
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的...原创 2014-01-04 10:16:16 · 138 阅读 · 0 评论 -
HBASE之RowKey排序解析
HBASE之RowKey排序解析 学了hbase一段时间了,近端时间在进行表设计的时候一直没搞清楚rowkey的排序规则是怎么样的。找了一些资料之后,原来rowkey的排序方式是以ASCII进行比较的。以下是ASCII对照表格及描述,希望对学Hbase的朋友有帮助:其他特殊字符的ASCII列表...原创 2014-01-15 13:59:48 · 541 阅读 · 0 评论 -
hbase example code
本地连接hbase:Configuration config = HBaseConfiguration.create();config.set("hbase.zookeeper.quorum", "localhost");config.set("hbase.zookeeper.property.clientPort", "2181");HBaseAdmin.checkHBase...原创 2014-01-16 16:58:59 · 166 阅读 · 0 评论 -
HBase Memstore理解笔记
HBase BlockCache理解笔记 HBase read path. Data is reconciled from the BlockCache, the MemStore, and the HFiles to give the client an up-to-date view of the row(s) it asked for. HBase Memstore理...原创 2014-02-09 19:32:03 · 177 阅读 · 0 评论 -
HBase伪分布环境搭建过程记录
公司项目组需要在异地机房进行测试,买的是阿里云的机器,领导一句话花最少的钱办最大的事情,所以预算是一台机器,一core的cpu,4G内存,20G硬盘,想在这上面搭建一套高大上的HBase ,这就好比给你一包方便面想让你做出一桌满汉全席出来, 尼玛这不是为难我吗!! 好吧,吐槽完之后该搬砖还得搬砖,最开始想法是搭建最简单的standlone版本的HBase,只需要基于l...原创 2015-02-12 14:11:54 · 304 阅读 · 0 评论 -
facebook的HBase经验
见附件原创 2014-11-12 22:16:55 · 243 阅读 · 0 评论 -
hbase的行锁与多版本并发控制(MVCC)
参考:http://www.rigongyizu.com/hbase-row-lock-and-multiversion-concurrency-control/ MVCC (Multiversion Concurrency Control),即多版本并发控制技术,它使得大部分支持行锁的事务引擎,不再单纯的使用行锁来进行数据库的并发控制,取而代之的是,把数据库的行锁与行的多个版本结合起来...原创 2014-11-16 12:57:49 · 482 阅读 · 0 评论 -
HBase的数据的update
hbase是以rowkey,column,timestamp这三个维度来区分的。即如果两条记录其rowkey,column,timestamp一样的话,那么hbase就会认为其是相同的数据。 Java代码 row column value time put r1 cf:c1 '5' ...原创 2014-11-16 13:33:16 · 1045 阅读 · 0 评论 -
HBase的get过程(一)
原文:http://punishzhou.iteye.com/blog/1258848 0.90.X的get和scan操作原理上是比较一致的,get操作都变为scan操作。不过在分析之前我们还是从get说起话不多说首先看看get这个接口,hbase客户端对于get有以下几种:Java代码 public Get(byte [] row) J...原创 2014-11-16 13:45:59 · 456 阅读 · 0 评论 -
HBase的rowkey设计
访问hbase table中的行,只有三种方式:1 通过单个row key访问2 通过row key的range3 全表扫描Hadoop Sequence File Author:Pirate LeomyBlog: http://blog.youkuaiyun.com/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。...原创 2013-12-26 15:45:01 · 141 阅读 · 0 评论 -
分布式系统概述(Hadoop与HBase的前生今世)
古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样:我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。—— Grace Hopper(计算机软件第一夫人,计算机历史上第一个BUG的发现者,也是史上最大BUG千年虫的制造者)这就是分布式。 再来看一组令人瞠目结舌的数据:2012年11月11日支付宝总交易额191亿元,...原创 2013-12-26 15:37:37 · 182 阅读 · 0 评论 -
hbase in action学习笔记一(quick start)
一. quick start1. wget http://apache.claz.org/hbase/hbase-0.92.1/hbase-0.92.1.tar.gztar xvfz hbase-0.92.1.tar.gz 2. 编辑conf/hbase-site.xml<?xml version="1.0"?><?xml-stylesheet type...原创 2013-12-17 22:31:45 · 147 阅读 · 0 评论 -
hbase总结-HTable和HTablePool使用注意事项
HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。下面结合在项目中的应用情况,对二者使用过程中的注意事项做一下概括总结。HTableHTable是HBase客户端与HBase服务端通讯的Java API对象,客户端可以通过HTable对象与服务端进行CRUD操作(增删改查)。它的创建很简单:Configuration...原创 2013-12-17 23:09:46 · 466 阅读 · 0 评论 -
hbase文档集合
HBase Java客户端编程HBase性能优化方法总结(一):表的设计HBase性能优化方法总结(二):写表操作HBase性能优化方法总结(三):读表操作HBase性能优化方法总结(四):数据计算 HBase一次慢查询请求的问题排查与解决过程HBase在数据统计应用中的使用心得 HBase使用中几个容易犯的小错误 HBase HFile与...原创 2013-12-17 23:27:05 · 359 阅读 · 0 评论 -
OpenTSDB的设计之道
OpenTSDB是一个架构在Hbase系统之上的实时监控信息收集和展示平台。它在海量数据的压力下,仍然保证了存储的效率,那么它背后有什么值得借鉴的地方呢?1)使用AsyncHbase而非HBase自带的HTable。使用线程安全、非阻塞、异步、多线程并发的HBase API,在高并发和高吞吐时,可以获得更好的效果。建议在使用AsyncHBase时,在CPU core有保证的前提下,可以...原创 2013-12-22 20:56:11 · 315 阅读 · 0 评论 -
大规模日志收集处理项目的技术总结
参考:http://sdjcw.iteye.com/blog/1814703 以下是2012年一个公司内部项目的技术总结,涉及到的方面比较多比较杂,拿出来和大家分享下。如果有更好的方案或者想法请联系我,谢谢~!注:文章中提到的其他系统(如哈勃Agent、EagleEye)是公司内部的其他系统,这里就不详细介绍了。简介TLog是一个分布式的,可靠的,对大量数据进行收集、分析、展现的...原创 2013-12-22 21:04:02 · 140 阅读 · 0 评论 -
HBase之Java API
参考 http://blog.youkuaiyun.com/javaman_chen/article/details/7220216 1.Configuration 在使用Java API时,Client端需要知道HBase的配置环境,如存储地址,zookeeper等信息。这些信息通过Configuration对象来封装,可通过如下代码构建该对象 Configuration...原创 2013-12-24 10:10:36 · 107 阅读 · 0 评论 -
HBase性能优化2—使用Coprocessor进行RowCount统计
http://www.binospace.com/index.php/make-your-hbase-better-2/关键词:AggregationClient 对于Table内RowKey个数的统计,一直是HBase系统面临的一项重要工作,目前有两种执行该操作的方式。1)使用MapReduce进行。可以借助HTableInputFormat实现对于Rowkey的划分,但是需要...原创 2013-12-24 10:23:20 · 638 阅读 · 0 评论 -
HBase实战之利用Coprocessor实现聚合函数
关键词LongColumnInterpreter参考:http://zhang-xzhi-xjtu.iteye.com/blog/1926732 HBase实战之CoprocessorProtocol及一个简单的通用扩展实现http://zhang-xzhi-xjtu.iteye.com/blog/1926732...原创 2013-12-24 21:14:44 · 543 阅读 · 0 评论 -
hbase无法启动问题
今天遇到hbase无法启动,找了很久,才发现可能是data目录的文件丢失导致的,重新清空了/duitang/data/hbase, /tmp/habse /duitang/data/hbase_zookepper三个目录之后重启,问题解决,错误如下: 总之hbase之需要配置conf/hbase-site.xml<configuration> <proper...原创 2013-12-24 23:53:21 · 1140 阅读 · 0 评论 -
hbase client无法连接到本地hbase server
今天下午浪费了不少时间在搞本地hbase server测试,测试代码如下:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase....原创 2013-12-25 00:51:02 · 488 阅读 · 1 评论 -
hbase mapreduce例子
参考:http://hbase.apache.org/book/mapreduce.htmlhttp://genius-bai.iteye.com/blog/641927 HBase 自带例子hbase-0.20.3\src\test计算表的总行数(org.apache.hadoop.hbase.mapreduce.RowCounter)bin/hadoo...原创 2013-12-25 15:40:41 · 149 阅读 · 0 评论 -
hbase实现count功能
代码如下: Scan scan = new Scan(); scan.addFamily(Bytes.toBytes("cf")); scan.setCaching(500); AggregationClient ac = new AggregationClient(config); long rowCount = ac.rowCount(Bytes.toBytes...原创 2013-12-25 15:42:06 · 996 阅读 · 0 评论 -
hbase查询超时导致的错误
今天上线跑一个hbase程序出现如下错误:org.apache.hadoop.hbase.regionserver.LeaseException: org.apache.hadoop.hbase.regionserver.LeaseException: lease '5008606692699215376' does not exist 问题解决HBase 客户端调用建立在由S...原创 2013-12-25 19:53:13 · 818 阅读 · 0 评论 -
Hbase,Zookeeper性能优化之-参数设置
zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个timeout决...原创 2013-12-25 20:18:35 · 391 阅读 · 0 评论 -
HBase技术介绍
原文:http://www.searchtb.com/2011/01/understanding-hbase.html HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似...原创 2013-02-22 11:46:29 · 136 阅读 · 0 评论 -
NoSQL HBase
Hbase架构Hmaster: 元数据,schema管理。 region分配,负载平衡,但是不介入直接的数据访问Region server: 读写请求处理,Region分裂管理。介绍我们以一个实际的业务例子来粗浅地看看在面对不同数据规模的互联网业务时,数据体系的一个演变过程。Hush是一家提供短链接服务的互联网公司。它把客户的长HTTP链接转换成一个短HTTP链接,方便客...原创 2017-03-07 16:39:46 · 231 阅读 · 0 评论