
hbase
文章平均质量分 63
qwert9016
这个作者很懒,什么都没留下…
展开
-
关于namenode安全模式
前两天在启动hadoop时,发现namenode启动了之后,并没有全部启动datanode,而且tasktracker也没被启动,看到输出:org.apache.hadoop.dfs.SafeModeException: 。。。. Name node is in safe mode 从上面的错误可以看出,是因为namenode处在安全模式导致的错误。在启动namenode转载 2013-04-01 13:25:27 · 934 阅读 · 0 评论 -
HBase实现记录定期定量删除
HBase如何实现定期定量的删除记录?使用场景分析:我们在HBase中存储的记录可能有一些是增速很快且又不需要永久保存的,比如大量的“系统日志”,也许只需保存最近几个月记录便可。我们的存储空间又很有限,尤其是HDFS这种多副本容灾存储。再加上HBase在存储每一行数据时,分别要为每一列保存一份rowKey,如果一行有10列,光rowKey就要存储10份,开销可想而知。因此定期定量删除的功能转载 2013-03-25 13:10:40 · 596 阅读 · 0 评论 -
HBase 定期备份
如何使用HBase的Export与Import完成备份功能,请参照我之前的博文《HBase 增量备份》。转载一份使用Export与Import定期备份的Python代码。每月15日做一次完整备份,每天进行一次增量备份。[python] view plaincopyprint?import time import date转载 2013-03-25 13:17:23 · 542 阅读 · 0 评论 -
hbase条件查询
一、环境HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6二、需求背景 在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构设计可以在一定层度上通过rowkey来定位查询(速度很快),但是,如果我是已知某个列的值,需要看有转载 2013-03-25 15:46:52 · 541 阅读 · 0 评论 -
HBase简介(很好的梳理资料)
一、 简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop转载 2013-03-25 15:55:10 · 405 阅读 · 0 评论 -
HMaster自动退出源于regionServer宕机
一大早起来关注我的小集群,发现HBase不好使了,弄得毫无头绪——只好重新查看守护进程jps 后 返现传说中的HMaster居然。。。不见了!————查看日志!果然:2012-12-17 22:51:13,317 INFO org.apache.zookeeper.ClientCnxn: Unable to reconnect to ZooKeeper service, sessi转载 2013-03-26 17:09:33 · 673 阅读 · 0 评论 -
HBase troubleshooting的一般思路
HBase troubleshooting的一般思路Posted on May 3, 2011 by John_Yang1. 如何发现问题在我们的集群中,HBase的错误是通过splunk和nagio的报警机制报告的。当service出现异常,如退出,crash,master/regionserver 抛出异常等,管理员都会收到消息。2. 问题跟踪方法在http转载 2013-03-26 17:15:04 · 468 阅读 · 0 评论 -
Java GC(垃圾回收)
1.java中GC 即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存。java语言并不要求jvm有gc,也没有规定gc如何工作。不过常用的jvm都有gc,而且大多数gc都使用类似的算法管理内存和执行收集操作。 垃圾收集的目的在于清除不再使用的对象。gc通过确定对象是否被活动对象引用来确定是否收集该对象。gc首先要判断该对象是否是时候可以收集。两种常用的方法是引用计转载 2013-03-26 17:16:26 · 566 阅读 · 0 评论 -
java包的运行方式
1. java -cp abc.jar mytest 简单运行2. jar tf abc.jar查看包的内容3. java -classpath./hbase/hbase-0.94.3.jar -Djava.ext.dirs=/home/huangyuping/hbase/lib/ mytest.java编译4. java -D原创 2013-03-26 13:07:33 · 481 阅读 · 0 评论 -
如何避免regionServer宕机
为什么regionserver 和Zookeeper的session expired? 可能的原因有1. 网络不好。2. Java full GC, 这会block所有的线程。如果时间比较长,也会导致session expired.怎么办?1. 将Zookeeper的timeout时间加长。2. 配置“hbase.regionserver.restart.o转载 2013-03-26 17:12:06 · 950 阅读 · 0 评论 -
HBase条件查询(多条件查询)
Author:Pirate LeomyBlog: http://blog.youkuaiyun.com/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。文中可能涉及到的API:Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:转载 2013-03-25 13:07:40 · 587 阅读 · 0 评论 -
hbase中filter查询例子
http://blog.youkuaiyun.com/karen_wang/archive/2011/03/28/6284154.aspx 1、需要的jar包:commons-codec-1.4.jarcommons-logging-1.0.4.jarhadoop-0.20.2-core.jarhbase-0.20.6.jarlog4j-1.2.15.jar转载 2013-03-25 15:45:13 · 579 阅读 · 0 评论 -
最为关心的问题,hbase查询一条数据的过程.
HBase中的Client如何路由到正确的RegionServer我们来仔细分析一下这个结构,每条Row记录了一个Region的信息。首先是RowKey,RowKey由三部分组成:TableName, StartKey 和 TimeStamp。RowKey存储的内容我们又称之为Region的Name。哦,还记得吗?我们在前面的文章中提到的,用来存放Region的文件夹的名字是R转载 2013-03-25 16:17:07 · 925 阅读 · 0 评论 -
hadoop常见错误总结
PS:这是在百度文库里面找到的一份资料,很适合新手,原作者已不可考,很感谢他;有时候我在想,如果我们大家都可以把自己做事的感悟和一些经验分享出来,不吝赐教,那么何愁中国的技术赶不上国外!!错误1:bin/hadoop dfs 不能正常启动,持续提示: INFO ipc.Client: Retrying connect to server: localho转载 2013-04-01 13:56:03 · 511 阅读 · 0 评论 -
缓存淘汰算法之LRU
2. LRU-K2.1. 原理LRU-K中的K代表最近使用的次数,因此LRU可以认为是LRU-1。LRU-K的主要目的是为了解决LRU算法“缓存污染”的问题,其核心思想是将“最近使用过1次”的判断标准扩展为“最近使用过K次”。2.2. 实现相比LRU,LRU-K需要多维护一个队列,用于记录所有缓存数据被访问的历史。只有当数据的访问次数达到K次的时候,才将数据放入缓存转载 2013-03-25 09:19:47 · 637 阅读 · 0 评论 -
HBase性能优化方法总结:读表操作
1 多HTable并发读创建多个HTable客户端用于读操作,提高读数据的吞吐量2 HTable参数设置3.2.1 Scanner Cachinghbase.client.scanner.caching配置项可以设置HBase scanner一次从服务端抓取的数据条数,默认情况下一次一条。通过将其设置成一个合理的值,可以减少scan过程中next()的时转载 2013-03-25 09:25:55 · 569 阅读 · 0 评论 -
HBase性能优化方法总结(1):配置优化
配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优转载 2013-03-25 09:29:44 · 433 阅读 · 0 评论 -
HBase性能优化方法总结:表的设计
下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入转载 2013-03-25 10:01:08 · 504 阅读 · 0 评论 -
HBase性能优化方法总结:写表操作
写表操作2.1 多HTable并发写创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子:[java] view plaincopystatic final Configuration conf = HBaseConfiguration.create(); static final String table_log转载 2013-03-25 10:07:04 · 463 阅读 · 0 评论 -
HBase 增量备份
一、概述使用了HBase提供的Export与Import工具。Export:http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/mapreduce/Export.htmlImport:http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/mapreduce/转载 2013-03-25 13:15:48 · 667 阅读 · 0 评论 -
HBase实现分页浏览
最近做的项目用到了HBase处理海量的数据记录,并在前端UI提供了查询浏览功能。起初,这部分功能是使用Postgresql实现的,顺理成章的实现了分页浏览与按指定字段排序功能。但是,由于产品处理数据量级的改变(预估上亿,离真正的海量还很远~,但已经超出的PG可以快速响应的量级),产品设计尸从产品可扩展性与数据可靠性的角度考虑,要我将PG中的一些数据切到HBase中。但是前端UI又不转载 2013-03-25 13:29:21 · 675 阅读 · 0 评论 -
regionserver的重启
datanode 宕机了. datanode通过 ssh ccc "/home/hadoop/bin/hadoop-daemon.sh start datanode"ssh ccc "/home/hadoop/bin/hadoop-daemon.sh start tasktracker" 重起后, 那么在datanode上的hbase如何重起${HBASE_HOME}/bin/hb原创 2013-03-25 16:40:27 · 954 阅读 · 0 评论 -
HBase 系统架构
HBase 系统架构HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Goog转载 2013-03-28 09:30:02 · 432 阅读 · 0 评论