
hbase
文章平均质量分 67
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
hbase基于YCSB的压力测试配置与使用
原文链接:http://blog.lars-francke.de/2010/08/16/performance-testing-hbase-using-ycsb/原文作者Lars Francke,德国汉堡的以为自由软件开发者,关注H系列(Hadoop,HBase,Hive,…)分布式系统。这里是对原文的一个不完全的大致的翻译。————————————– 毫无理由的分割线 —————————转载 2013-09-25 09:23:12 · 1572 阅读 · 0 评论 -
用 Ganglia 监控hadoop集群
随着数据中心的增长和管理人员的缩减,对计算资源使用有效监视工具的需求变得比以往更加迫切。术语监视 在应用到数据中心时可能会让人混淆,因为它的含义会根据具体的说话者和听众而有所不同。例如:在集群中运行应用程序的人员会思考:“我的作业什么时候运行?它什么时候会完成?以及与上一次相比,它是怎样执行的?”网络运营中心(NOC)的操作员会思考:“什么时候会出现表示需要解决问题的红灯并安排服务转载 2011-11-08 11:55:53 · 4595 阅读 · 0 评论 -
hbase很有价值的读写性能提升
NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)在运维hbase时,目前我们最为关注的主要是三大方面的状况:1. Cluster load;2. 读写;3. 磁盘空间。1. Cluster lo转载 2011-11-01 16:09:44 · 2456 阅读 · 0 评论 -
云平台调整建议
一,建立最少的列簇1,用户表将用户基本信息放入一个列簇中(如nickname,gender等),将好友,标签等有大量列的单独存放,这样用户表成为5个列簇2,信息表、用户关系等基本表都改为一个列簇调整依据:更少的列簇,更少的io分析:一个HRegion中所有HStore中MemStore的大小总和到达阀值时就会进行flush操作(解释:可大概理解为同一个表中的所有列簇会同时flu原创 2011-10-25 23:02:36 · 977 阅读 · 0 评论 -
多region下的hbase写入问题
最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个region。 通过jstack工具检查到大半写入线程BLOCKED状态在"public synchronized void reclaimMemStoreMemory() {"这一行,这是在转载 2011-10-24 17:29:18 · 1020 阅读 · 0 评论 -
hbase中compact、split相应配置参数分析
1, hbase.hregion.majorcompaction 86400000 The time (in miliseconds) between 'major' compactions of all HStoreFiles in a region. Default: 1 day. Set to 0 to disable automated major co原创 2011-10-21 17:53:00 · 6015 阅读 · 1 评论 -
hbase系统架构及数据结构
HBase中的表一般有这样的特点:1 大:一个表可以有上亿行,上百万列2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图HBase转载 2011-10-21 17:37:14 · 4548 阅读 · 2 评论 -
hbase中compaction流程
当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 m转载 2011-10-19 12:28:58 · 2278 阅读 · 0 评论 -
cloudera中hbase使用Snappy算法安装及设置
Snappy is a compression/decompression library. It aims for very high speeds and reasonable compression, rather than maximum compression or c转载 2011-10-18 16:34:45 · 3608 阅读 · 2 评论 -
HBase 压缩算法设置及修改
Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和转载 2011-10-18 16:33:33 · 2063 阅读 · 0 评论 -
hbase开启lzo压缩
hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景,即是否值得进行压缩、压缩率是否足够等等。 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态转载 2011-10-18 15:21:23 · 1837 阅读 · 0 评论 -
HBase性能深度分析
文/刘星HBase作为BigTable的一个开源实现,随着其应用的普及,用户对它的性能数据愈发关注。本文将为您揭开HBase性能测试的一角,邀您一起参与到对云计算模块性能调优的深度思考中。对于BigTable类型的分布式数据库应用来说,用户往往会对其性能状况有转载 2011-10-14 18:01:24 · 1223 阅读 · 0 评论 -
使用Ganglia监控Hadoop
Hadoop本身提供了很多监控工具的接口,如JMX、Nagios、Ganglia等。使用Ganglia监控hadoop,配置起来非常简单,只需要修改$HADOOP_HOME/conf/hadoop-metrics.properties文件,把相关的配置段修改为下面的示例:# Configuration of the "dfs" context for ganglia # Pick one: G转载 2011-11-08 11:56:41 · 2161 阅读 · 0 评论 -
修复hbase region hole(region空洞,两个region rowkey不连续)问题流程
修复hbase region hole问题流程1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法, 首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功 2,重新起动hbase集群,是否会进行闭环检测?未成原创 2011-12-19 18:51:05 · 8541 阅读 · 1 评论 -
HBase on Windows(windows下使用cygwin安装hbase问题记录)
步骤:1,HBaseDownload the latest release of HBase from the website. As the HBase distributable is just a zipped archive, installation is as simple as unpacking the archive so it ends up in it原创 2012-02-03 15:29:51 · 2237 阅读 · 0 评论 -
Impala安装文档完整版
一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。二、安装要求1、软件要求转载 2013-09-22 09:27:57 · 1710 阅读 · 0 评论 -
hbase实现快速行统计
1. Enable AggregationClient coprocessorYou have two choices :You can enable aggregation coprocessor on all your tables by adding the following lines tohbase-site.xml : hbase.coproces转载 2013-09-30 10:46:18 · 2210 阅读 · 0 评论 -
hbase 通过mapreduce方式对hbase表的备份及恢复(export import)
1, hbase自带的备份恢复工具hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1hbase org.apache.hadoop.hbase.mapreduce.Import 'table1' /home/fred/table1导入时必须先创建表结构。http://www.itey转载 2013-09-30 10:24:25 · 1563 阅读 · 0 评论 -
Facebook messages实现解读(facebook 基于hbase的消息系统数据结构)
Facebook之前上线了新的messages实现,以前草草的看过相关的几篇blog还有facebook同学在qcon上讲的hbase的slide,但其实看的都很粗略,尤其是之前去facebook和相关同学交流后,发现和自己之前理解的太不一样了,于是近几天又翻出了messages的几篇blog来仔细的看了看,看完后的感触就是facebook在设计其messages实现时,会尽可能做到物尽其用,对于转载 2013-09-30 10:33:31 · 3839 阅读 · 0 评论 -
Facebook Messages背后的数字故事(facebook hbase应用:消息业务说明)
Facebook于11月16日早晨在旧金山召开了新闻发布会,就Facebook即将推出的全新通信系统做了讲话,这一大家最近一直猜测的问题终于也因此有些明朗化了。核心内容可以概括为: 它绝不仅仅是电子邮件这么简单。为什么呢?这明明是电子邮件,为什么又说不是呢?Facebook老大Mark Zuckerburg说道:“每当我已有机会和一些高中生们交流,我就会问他们,你们到底喜欢用什么方式来联络转载 2013-09-30 10:30:14 · 1313 阅读 · 0 评论 -
HBase跨集群复制数据的另一种方法
一、从源hbase集群中复制出HBase数据库表到本地目录最好停止HBase,否则可能会丢部分数据[hbase@hadoop200 ~]$ hadoop fs -get /hbase/toplist_ware_total_1009_201232 toplist_ware_total_1009_201232压缩[hbase@hadoop200 ~]$ tar zcvf topl.t转载 2013-09-30 10:25:37 · 1111 阅读 · 0 评论 -
淘宝大数据产品解析之搜索应用平台nimitz介绍
尼米兹(Nimitz)英文原意是航空母舰的意思。在dump中心,是由道凡发起的一个项目,目标是希望nimitz能成为各个搜索小应用提供一个综合平台,可以快速部署各种中小型的搜索引擎服务,可以快速对接淘宝的各个业务库,快速开发海量数据数据的离线处理程序,BUILD索引,方便运维,高可用性。解析:nimitz显然不是淘宝的搜索引擎,是为外部开发者提供的统一索引创建平台,降低与淘宝对接的开发成本。原创 2013-04-13 18:06:31 · 1658 阅读 · 0 评论 -
淘宝大数据产品解析之基于storm引擎的虫洞系统
虫洞系统是吸星大法项目衍生出来实时计算的基础平台。解析:虫洞系统是基于storm为基础的项目,牵扯到了淘宝自己的应用组件跟storm的整合,应用于实时计算领域这是独立于云梯的另一个大的平台系统,并且方向不同,在这做个简单的应用场景分析虫洞:实时计算,比如当天的流量分析、活动分析、个性化推荐对实时性要求比较高的需求云梯:离线分析,主要应用于离线数据统计,数据挖掘,并且很多分析数据是要原创 2013-04-13 17:03:10 · 2222 阅读 · 0 评论 -
YCSB 对HBase 性能测试
我认真的在想,关在牢里面的人,不一定比放在外面的人坏。 -- 三毛 这篇文章放草稿箱快两个多月了,今天突然被告知,要换方向,看了近三个月的HBase就这样别了,很突然。 刚开始装上HBase系统,再还没什么应用的情况下,就不知拿着它干嘛,好吧,测试一下。 HBase的版本是:0.90.5 Hadoop的版本是:1.0.0,分布式部署,一共四个节点。 测试工具是:YC转载 2013-02-23 14:58:35 · 961 阅读 · 0 评论 -
基于HBASE的并行计算架构之rowkey设计篇
1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,统计数据也有时间属性,统计数据如果进行保存必须保证在统计计算之后数据尽量不再变化,如果统计发生后转载 2013-02-22 11:38:11 · 646 阅读 · 0 评论 -
hadoop、hbase异常集锦
1,Re: IllegalArgumentException: Not a host:port解决办法:1,connect to a 0.92 hbase with 0.90 client 2,0.92 hbase and then reverted to 0.90 without clearing zk data?2,jobtracker.info could only原创 2012-04-26 15:07:22 · 1273 阅读 · 0 评论 -
Hbase利用HTablePool实现Htable连接池
之前通过直接new Htable方式对hbase表进行操作,会经常抛出NIOServerCnxn: Too many connections from /10.202.50.79 - max is 60 异常解决最后经过分析为Htable创建过多,而每创建一个htable原创 2011-09-28 19:28:49 · 7331 阅读 · 2 评论 -
HTablePool 连接池源码分析
public class HTablePool { //存放多个htable的ConcurrentMap,这里用ConcurrentMap是为了线程安全 //LinkedList放的是同一hatable多个对象的链表 private final ConcurrentM原创 2011-09-28 19:53:20 · 2503 阅读 · 1 评论 -
基于Hbase存储的分布式消息(IM)系统-JABase
前段日子看了在highscalability.com上一篇介绍facebook消息系统的文章,一夜之后被无数个网站无数次的转载,现如今facebook的任何一个话题都会引起很多人的关注,但我对只对这文章里面没有说明的部分比较感兴趣,系统里是怎么获得即时消息的?PHP监听器?开启很转载 2011-09-15 11:00:32 · 1197 阅读 · 0 评论 -
zookeeper NIOServerCnxn: Too many connections from /10.202.50.79 - max is 60 异常解决办法
原因:客户端程序通过zookeeper访问hbase的连接数超过设置的默认链接数,连接数不够用导致解决办法:设置hbase-site.xml配置文件,添加如下属性 hbase.zookeeper.property.maxClientCnxns 300原创 2011-09-08 10:46:18 · 5056 阅读 · 0 评论 -
ResultSet may only be accessed in a forward direction 问题解决
if(this.rs.isFirst()){ this.rs.last();//抛该异常 PropertiesUtil.setProperty("UpdateUserInfo.beginTime", df2.format(df.parse(this.getFi原创 2011-09-13 17:11:15 · 1192 阅读 · 0 评论 -
hbase中的缓存的计算与使用
hbase中的缓存分了两层:memstore和blockcache。 其中memstore供写使用,写请求会先写入memstore,regionserver会给每个region提供一个memstore,当memstore满64MB以后,会启动flush刷新转载 2011-09-09 10:56:00 · 1108 阅读 · 0 评论 -
ClientCnxn: Session 0x0 for server null, unexpected error Connection refused
坑爹的异常!这个异常碰到过多次每次有可能会是不同的地方出现问题导致,现在总结出来该异常的总体解决方向为:是zookeeper访问regionserver时候抛出的,一般是hbase-site.xml中的dns设置有问题,或者dns本身有问题,症状就为regionserver一原创 2011-08-11 21:33:11 · 3703 阅读 · 0 评论 -
java.io.IOException: Could not obtain block: blk
联系两个晚上跑数据出现这个异常,具体内容如下:2011-08-10 05:51:21,823 ERRORorg.apache.hadoop.hbase.regionserver.CompactSplitThread: Compaction/Splitfailed for原创 2011-08-11 21:26:27 · 4120 阅读 · 0 评论 -
hbase 根据需求创建组合索引(组合rowkey)及组合索引创建规则
hbase据我目前的了解来看 《查询》方面的最大优势是根据rowkey 进行查询,然后结合map/reduce 运算效率非常高,但是如果牵扯到表关联查询,涉及到列簇中的列时,因为没有索引效率就变的非常低下,所以我这采用了组合索引(组合rowkey)方式来解决这个问题,下面采用简单原创 2011-08-09 20:02:31 · 2049 阅读 · 0 评论 -
Could not append.Requesting close of hlog
上几天跑程序,hadoop集群报了如下错误:2011-08-05 11:57:03,067 DEBUG org.apache.hadoop.hbase.regionserver.HRegion:Started memstore flush forwb_userinfo,sin原创 2011-08-09 19:08:03 · 666 阅读 · 0 评论 -
hadoopFATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Incompatible build versions: namenode
datanode起不来,日志为:STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = cloud2/X.X.X.XSTARTUP_MSG: args = []STARTUP_MSG: version = 0转载 2011-08-03 18:53:21 · 1229 阅读 · 0 评论 -
hbase java.lang.IllegalArgumentException: Could not resolve the DNS name of X.X.X.X:60020
主机修改了新的hostname,同时修改了master,regionserver节点,但是启动时发现仍然会解析老的hostnames,报告如下异常:13:21:04,340 INFO org.apache.hadoop.hbase.master.HMaster: -ROOT-原创 2011-08-03 10:24:08 · 1637 阅读 · 0 评论 -
hadoop版本问题
通过yum方式动态添加新的datanode,启动从机器datanode时,会报如下错误:hadoopFATALorg.apache.hadoop.hdfs.server.datanode.DataNode: Incompatible build versions:namenode原创 2011-07-27 09:55:35 · 1109 阅读 · 0 评论 -
HBase入门7 -安全&权限
我的废话: 大年三十夜,看春晚实在是太无聊了,整个《新闻联播》的电视剧版本,还不如上上网,看看资料,喝喝老酒,写点东西来的快活。 近2年来云计算的话题到目前为止风风火火从来没有平静过,一直是大家嘴边讨论的热门话题,人们期望运用云计算提供可靠、稳定、高速的计算转载 2011-09-15 11:01:19 · 875 阅读 · 0 评论