
HBase
文章平均质量分 72
hljlzc2007
大数据玩家
展开
-
HBase 维护--查看HLog和HFile
查看HLog看了一些文章,HBase高可靠性是实现了HLog(Write-ahead Log)机制,那么HLog到底存在哪里了呢首先去HDFS的/hbase目录查看一下.hadoop fs -ls -R /hbase, 可以看到hbase下面有个.logs文件夹.logs文件夹下存放的内容就是各个Region Server的HLogdrwxr-xr-x - hbase原创 2013-09-06 12:02:58 · 7590 阅读 · 0 评论 -
HBase技术介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapRe转载 2013-10-12 12:28:09 · 1376 阅读 · 0 评论 -
Coprocessor Introduction
(The original version of the blog was posted at http://hbaseblog.com/2010/11/30/hbase-coprocessors/ in late 2010, however the site is no longer available. Since we decided to move all blog posts to转载 2013-10-12 15:25:26 · 1733 阅读 · 0 评论 -
hbase的coprocessor使用
1.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单的转载 2013-10-12 15:07:49 · 8825 阅读 · 0 评论 -
HBase向多个column写入的性能分析
测试场景:1.向一列中插入每条2K的数据2.向100列中插入每条20byte的数据以上两个场景,HBase写入的性能相差很大.造成这个情况的原因是,HBase存储方式是以KeyValue来存的,每个KeyValue是由key,CF, column,TS等组成的,也就是说,HBase接受到了100列的数据,以column拆分成100个KeyValue,这样就造成了很多重复的数据,远远原创 2013-09-17 11:18:28 · 1374 阅读 · 0 评论 -
HLog代码分析
在分享replication时,有同事提出replication延时怎么样,(基于0.94.3)本文主要代码分析一下Hlog生成及对relication的影响。具体replication请参考http://brianf.iteye.com/blog/1776936首先分析hlog什么时候产生:在生成HLog对象时,会调用HLog的rollWriter(),此时由于this.转载 2013-09-16 18:12:52 · 2965 阅读 · 0 评论 -
提升HBase写性能
一、调整参数入门级的调优可以从调整参数开始。投入小,回报快。 1. Write Buffer Size快速配置Java代码 HTable htable = new HTable(config, tablename); htable.setWriteBufferSize(6 * 1024 * 1024); htable.setAutoFlush(fal转载 2013-09-16 18:08:19 · 1405 阅读 · 0 评论 -
浅谈HBase
HBase概念:HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。它经常被描述为一种稀疏的,分布式的,持久花的,多维有序映射, 基于行键rowkey,列簇column family和时间戳timestemp.HBase生态环境HBase时Google原创 2013-09-05 17:33:50 · 5375 阅读 · 0 评论 -
Region Server宕机,对整个集群的影响有哪些
本文章主要描述Region Server宕机后, 集群的处理过程,以及测试结果.Region Server宕机后,做了一下几步,1.ZK发现并确认RS宕机, 在RS列表中删除宕机的节点,2.Split日志文件HLog,将每一个日志文件分配给对应的Region3.将Region分配给其他活着的Region Server4.Region Server根据日志文件,RS发现H原创 2013-09-05 16:41:12 · 1516 阅读 · 0 评论 -
HBase Flush操作流程以及对读写服务的影响
HBase的Flush操作的触发条件:1)Manual调用,HRegionInterface#flushRegion,可以被用户态org.apache.hadoop.hbase.client.HBaseAdmin调用flush操作实现,该操作会直接触发HRegion的internalFlush。2)HRegionServer的一次更新操作,使得整个内存使用超过警戒线。警戒线是globalM转载 2013-09-03 17:12:54 · 4642 阅读 · 0 评论 -
深入分析HBase Compaction机制
Compaction介绍Compaction是buffer->flush->merge的Log-Structured Merge-Tree模型的关键操作,主要起到如下几个作用:1)合并文件2)清除删除、过期、多余版本的数据3)提高读写数据的效率Minor & Major Compaction的区别1)Minor操作只用来做部分文件的合并操作以及包括minVersion=0并转载 2013-09-03 14:22:44 · 17807 阅读 · 3 评论 -
HBase性能优化方法总结
HBase性能优化方法总结1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照转载 2013-09-03 10:21:18 · 1930 阅读 · 0 评论 -
Region Server 宕机后,处理过程
对于分布式数据库来说,容错处理是非常重要的一个部分。RegionServer是HBase系统中存在最多的节点,所以对于RegionServer的容错处理对于HBase来说至关重要。本文对RegionServer的容错处理进行Step by Step的分析,希望能解释清除整个过程并加以点评。我们假设在HBase运行的过程中有一个RegionServer突然Crash, 基于这个场景进行分析。转载 2013-09-03 10:40:53 · 9441 阅读 · 2 评论 -
HBase .META. Region启动不成功
启动region server的时候报如下错误:2013-09-09 11:23:05,863 DEBUG org.apache.hadoop.hbase.regionserver.HRegionServer: NotServingRegionException; Region is not online: -ROOT-,,02013-09-09 11:23:08,874 DEBU原创 2013-09-09 14:05:17 · 6876 阅读 · 0 评论 -
HBase宕机的多种场景
异常导致的退出会通过接口Abortable定义的abort()方法实现,Abortable实现类如下: 由以上类图可以看出HBaseAdmin的abort由于是client的访问,因此终止服务只需抛出异常即可,HConnection也是用于client,因此只需关闭连接,如果是zk的异常会在后续的使用中重新连接zk而不用关闭连接,其中重点的是HMaster、HRegionServer和转载 2015-01-08 16:13:09 · 1984 阅读 · 0 评论