
hbase
文章平均质量分 74
huanggang028
这个作者很懒,什么都没留下…
展开
-
使用CopyTable工具方法在线备份HBase表
CopyTable is a simple Apache HBase utility that, unsurprisingly, can be used for copying individual tables within an HBase cluster or from one HBase cluster to another. In this blog post, we’ll talk a翻译 2014-10-10 10:12:54 · 2058 阅读 · 0 评论 -
大数据技术-HBase:HBase写入路径
HBase数据是最终存放到hdfs上的,而我们知道hdfs是不支持随机写,只能提供append的形式追加,然后一旦写入后是不可变的。那么HBase是如何提供所谓的低延时写入和读取?下面我们就分析下其中的奥秘。写路径就是指HBase怎样完成put和delete操作的。该路径开始于客户端,然后到regionserver,最后被写入到一个叫做HFile的数据文件中。其中还包括了HBase为了防止数据原创 2015-05-25 15:31:52 · 3853 阅读 · 0 评论 -
HBase大批量写入操作ipc queue size持续上升问题记录及修复
由于需要将关系数据库数据通过VDataHub工具导入到HBase表,虽然在VDataHub中进行了流控,但是由于集群还有其他任务在跑,导致整个集群磁盘IO几乎跑满,很多put操作没法写入,在hbase服务端可以看到很多类似以下的异常日志: 2015-06-23 13:45:18,844 WARN [RpcServer.handler=71,port=60020] ipc.RpcServe原创 2015-06-24 14:43:13 · 10054 阅读 · 0 评论 -
HBase0.98.1-cdh5.1.2源码编译
最近线上使用的hbase版本发现一个重大bug,需要修改源码才能解决问题,于是尝试着对这个源码进行修改后重新编译,记录下过程,花了2天时间,哎。首先将hadoop和hbase的源码包上传到编译用的centos测试机器上,并解压:我们第一个编译hadoop,因为hbase需要依赖hadoop的相关jar包,进入hadoop-2.3.0-cdh5.1/src后,执行命令“mvn p原创 2015-06-24 14:16:36 · 1560 阅读 · 0 评论 -
大数据技术-HBase:使用CopyTable在线备份HBase表数据
CopyTable是hbase提供的一个很有用的备份工具。主要可以用于集群内部表备份,远程集群备份,表数据增量备份,部分结构数据部分等。其依赖于hadoop mapreduce,使用标准的hbase scan读接口和put写接口。使用之前,请务必先在集群中创建好需要写入的目标表tableDst,不然会报错,同时注意对于在备份期间新写入的数据无法保证都进行复制到目标表中。原创 2015-05-22 15:18:32 · 7328 阅读 · 0 评论 -
大数据技术-HBase:优化hadoop Xceivers
由于hbase是基于hadoop hdfs文件系统之上的,其持久化都是通过调用hdfs的client api达到的,所有hdfs的很多配置参数对hbase的性能影响也是很大的。今天主要说下其中的一个“dfs.datanode.max.xcievers”,注意在hadoop2.6版本这个已经改名了。现在这个值默认是4096,已经能满足大部分情况了。不能配置太大,因为每个也是需要占用内存空间的,默原创 2015-05-22 14:27:49 · 1459 阅读 · 0 评论 -
关于MemStore的刷新方式
关于MemStore的刷新方式:1、MemStore达到上限hbase.hregion.memstore.flush.size 默认是128M的时候,会触发MemStore的刷新。这个参数表示单个MemStore的大小的阈值。这个时候是不阻塞写操作的。 2、当一个RegionServer上的的MemStore总量达到hbase.hregion.memstore.block.转载 2015-05-29 15:53:12 · 893 阅读 · 0 评论 -
大数据技术-HBase:MSLAB介绍
随着内存资源价格的降低,服务器的内存越来越大,很多都是达到96GB的。而HBase的RS又是内存耗用性的,很多时候我们为其分配了比较大的内存空间。但与此同时,很多人都会遇到配置大内存所导致的各种问题。首先,我们知道HBase工作依赖于Zookeeper,RS会定期向Master进行状态汇报,如果长时间没有收到RS的汇报信息,Master会认为RS已经死掉,然后开始进行恢复操作。而Zookeep原创 2015-05-21 14:32:32 · 3144 阅读 · 0 评论 -
大数据技术-HBase:HBase并发版本控制MVCC
hbase为用户提供了一致的且易于理解的数据模型,同时保证高性能。这篇文章将向大家介绍下hbase数据模型保证和与传统关系数据库之间的区别,接着说下并发写控制的必要性,介绍了一个简单的并发控制方案。最后我们讨论读写并发控制讨论了MVCC。为了理解hbase并发控制,我们首先需要理解为什么hbase需要并发控制,换句话说,hbase的什么属性需要引入并发控制。hbase是基于row级别的ACID原创 2015-05-27 16:32:31 · 3660 阅读 · 0 评论 -
大数据技术-HBase:HBase 日志划分详解
我们都知道,hbase数据更新是存储到一个叫做memstore的内存区块,这样可以便于快速写入。当regionserver失效的适合,memstore里面的内容会丢失,因为没有被持久化到磁盘上。为了防止这种情况的数据丢失,更新操作放入memstore的时候被持久化到WAL中。这样可以依据WAL记录的内容对丢失的数据进行replay。regionserver有多个region。其中的所有regi原创 2015-05-26 16:32:37 · 5804 阅读 · 0 评论 -
大数据技术-HBase:HBase简介
什么是HBase?HBase是一个开源的,分布式,列式存储系统,基于Google Bigtable的大规模结构化数据存储系统实现。如果需要详细了解下Google的Bigtable,可以参考这个链接:http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/bigtable-osdi06.pdf原创 2015-05-20 16:02:51 · 642 阅读 · 0 评论 -
HBase监控点过滤收集到OpenTSDB
一般而言,常常采取的方法是配置hbase的监控输出到Ganglia,通过其自带的图表展示相应监控点。但是存在几个问题:1、region很多过期的监控数据不会消失,导致很多无用监控点;2、图表系统渲染太慢,监控点多以后不可接受;3、监控数据存储无法水平扩展,因为是存在本地磁盘文件通过调研OpenTSDB,发现其可以很好地处理时间序列数据,具有很好的扩展性和查询。具体思路就是对原创 2015-04-29 16:11:43 · 1586 阅读 · 0 评论 -
OpenTSDB-2.1.0RC1安装记录
最近在做监控系统相关的项目,在调研了一阵之后,决定选取OpenTSDB作为监控数据的核心存储,主要基于其提供可扩展的存储机制,易于做跟现有图表展现框架grafana做整合,轻松绘制专业的监控图表展现UI,同时提供了方便的HTTP API,可在其基础上开发报警模块。现整理下安装配置过程:1、下载软件包,下载地址是 https://github.com/OpenTSDB/opentsdb/re原创 2015-03-12 14:24:23 · 1703 阅读 · 0 评论 -
HBase预分区のUniformSplit
如果某个hbase的表查询只是以随机查询为主,可以用UniformSplit的方式进行,它是按照原始byte值(从0x00~0xFF)右边以00填充。以这种方式分区的表在插入的时候需要对rowkey进行一个技巧性的改造, 比如原来的rowkey为rawStr,则需要对其取hashCode,然后进行按照比特位反转后放在最初rowkey串的前面。可以充分利用Bytes这个工具类来做。public原创 2014-11-05 11:14:41 · 5540 阅读 · 0 评论 -
Trafodion: 针对HBase的SQL事务支持
IntroductionTrafodion is an open source initiative from HP, incubated at HP Labs and HP-IT, to develop an enterprise-class SQL-on-HBase solution targeted for big data transactional or operationa翻译 2014-10-31 13:49:22 · 1492 阅读 · 0 评论 -
大数据技术-HBase:HBase IO HFile
HBase声称可以支持实时的随机快速读写数据,但是其数据大部分是存入hdfs文件的,且是append进去的,为什么可以做到呢?下面我们将详细解释如何获取到随机I/O,怎样存储文件,及其所使用的文件格式HFile。Hadoop有一种叫做SequenceFile的文件格式,你可以将key/value对append到hdfs上,这种文件格式不支持修改和移除,仅仅支持append。如果你需要找一个特定原创 2015-05-25 17:39:52 · 879 阅读 · 0 评论