
HBASE
zhangxiong0301
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBASE批量数据导入
把MYSQL中的数据导入到hbase中,采用HBASE自带的BULK加载工具完成。过程分三步:1.从mysql中导出数据为CSV或TSV格式的文本文件2.利用importtsv工具转换Tsv文件为hbase的数据文件格式HFILE3.利用completeulkload加载上一步生成的hbase数据文件具体步骤:1.导数据:select concat(model,'_...原创 2014-06-26 17:19:09 · 314 阅读 · 0 评论 -
实时系统HBase读写优化--大量写入无障碍
在使用hbase过程中发现在写入hbase的数据量很大时,经常发生写不进去的情况。而我们基于hbase的应用是对实时性要求很高的,一旦hbase不能读写则会大大影响系统的使用。下面将记录hbase写优化的过程。 1.禁止Major Compaction在hbase进行Major Compaction时,该region将合并所有的storefile,因此整个region都不可读,所有对...原创 2015-06-18 10:55:09 · 361 阅读 · 0 评论 -
hbase优化(1)
因官方Book Performance Tuning部分章节 没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServ...原创 2015-06-18 11:16:02 · 113 阅读 · 0 评论 -
hbase中的MSLAB
CDH用MSLAB避免Hbase FullGC 使用Hbase过程中如果出现长时间Stop-The-World GC,会造成以下两种影响: 1. 在Stop-The-World GC过程中,用户请求被阻塞,导致明显的延迟甚至超时。2. Hbase通过zookeeper维系集群节点存活。如果长时间没有向zookeeper发送ping消息,则mast...原创 2015-06-19 10:21:37 · 520 阅读 · 0 评论 -
HBase的Block Cache实现机制分析
本文结合HBase 0.94.1版本源码,对HBase的Block Cache实现机制进行分析,总结学习其Cache设计的核心思想。1. 概述HBase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写;另外一部分作为BlockCache,主要用于读。写请求会先写入Memstore,Regionserver会给每个region提供一个...原创 2015-06-19 11:45:59 · 118 阅读 · 0 评论 -
How-to: Use HBase Bulk Loading, and Why
Hbase对外提供随机、实时的读写访问大数据,但问题是首先需要高效的把数据导入HBASE。通常我们通过mapreduce任务以及设置TableOutputFormat来调用hbase API导入数据。但是这样需要经过hbase的writepath:写数据到memstore,写WAL,flush数据,以及split和compact。因此更好的方式是即将介绍的BULKLOAD。 ...原创 2015-06-26 16:46:01 · 127 阅读 · 0 评论 -
hbase维护(转载)
一,基本命令: 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', C...原创 2014-10-15 10:40:57 · 134 阅读 · 0 评论 -
HBASE ScannerTimeoutException 问题
在对Hbase进行Scan的时候有时候会抛出ScannerTimeoutException,场景如下: Java代码 2012 15:28:52 (14mins, 41sec) org.apache.hadoop.hbase.client.ScannerTimeoutException: 60622ms passed since the last invoca...原创 2014-10-15 10:49:11 · 317 阅读 · 0 评论 -
HBase安全及namespace操作
1、介绍 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。 2、namespaceHBase系统默认定义了两个缺省的namespace...原创 2015-09-18 19:37:11 · 469 阅读 · 0 评论 -
HBASE高级应用
1、行健或表设计基本原则是尽量把查询的维度或信息存入行健中,因为这样筛选数据的效率最高。从表的形式看,主要有列少行多的高表和行多列少的宽表,一般情况下高表更有优势,因为hbase只能按行拆分。 防止数据过热:当时间序列类型的数据(行健为时间戳)写入时,数据集中在一个region中,很容易产生读写热点。解决办法有:1)添加hash前缀,2)字段交换或提升权重:即在行键中添加另外一个字段...原创 2014-12-15 17:53:21 · 161 阅读 · 0 评论 -
HBASE高级应用
1、行健或表设计 基本原则是尽量把查询的维度或信息存入行健中,因为这样筛选数据的效率最高。从表的形式看,主要有列少行多的高表和行多列少的宽表,一般情况下高表更有优势,因为hbase只能按行拆分。 防止数据过热:当时间序列类型的数据(行健为时间戳)写入时,数据集中在一个region中,很容易产生读写热点。解决办法有:1)添加hash前缀,2)字段交换或提升权重:即在行键中添加另外...原创 2014-12-15 17:53:28 · 147 阅读 · 0 评论 -
hbase0.96—+版本的endpoint
HBase Coprocessor 之 endpiont(hbase 0.96.0)分类: hbase2014-04-22 15:23 1661人阅读 评论(0) 收藏 举报hbasehadoopcoprocessorendpointhbase 0.96.0本文是基于hbase 0.96.0 测试的,理论上支持hbase 0.94 以上版本!!HBase有...原创 2015-04-21 17:16:10 · 160 阅读 · 0 评论 -
hbase observer
Hbase自0.92之后开始支持Coprocessor(协处理器),旨在使用户可以将自己的代码放在regionserver上来运行,即将计算程序移动到数据所在的位置进行运算。这一点与MapReduce的思想一致。Hbase的Coprocess分为observer和endpoint两大类。简单说,observer相当于关系型数据库中的触发器,而endpoint则相当于关系型数据库中的存储过程。关于...原创 2015-04-21 10:28:40 · 323 阅读 · 0 评论 -
hbase block cache中的in-memory
每load一个block到cache时,都会检查当前cache的size是否已经超过了“警戒线”,这个“警戒线”是一个规定的当前block cache总体积占额定体积的安全比例,默认该值是0.85,即当加载了一个block到cache后总大小超过了既定的85%就开始触发异步的evict操作了。evict的逻辑是这样的:遍历cache中的所有block,根据它们所属的级别(single,multi,...原创 2015-04-21 10:26:21 · 412 阅读 · 0 评论 -
HBASE 预分区建表
在create一个表时如果不指定预分配region,则默认会先分配一个region,这样在大数据并行载入时性能比较低,因为所有的数据都往一个region灌入,容易引起单节点负载升高,从而影响入库性能,一个好的方法时在建立表时预先分配数个region。方法有两种,主要针对不同版本可供选择。1.使用RegionSplitter方法,主要针对hbase-0.90.X版本a.首先使用Reg...原创 2014-06-27 09:29:33 · 998 阅读 · 0 评论 -
HBASE提高密集写性能(转载)
hbase.regionserver.handler.count 40 ? ? ? ?hbase.regionserver.handler.count属性可控制RPC侦听程序的线程数。该属性的默认值为10。这是一个相当低的值,这样设置的目的是防止RegionServer在某些情况下出现耗尽内存的情况。? ? ? ?如果RegionServer上的可用内存较少,就应该将该属性设为一个较低的值。较...原创 2014-06-27 09:35:28 · 186 阅读 · 0 评论 -
HBASE 协处理器入门(转载)
如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过滤(对于rowcounter来说,就加了FirstKeyOnlyFilter),但是这么做来说还是会有很大的副作用,比如...原创 2014-12-20 11:13:02 · 158 阅读 · 0 评论 -
HBASE API高级特性
一、过滤器 HBASE过滤器用来过滤数据,减少传输到客户端的网络消耗,也可以为客户端减轻一些数据处理压力。过滤器主要分为:比较过滤器,专用过滤器,附加过滤器和自定义过滤器。 1.比较过滤器比较过滤器基于某些运算做出过滤判定。过滤器的两个基本要素是:比较器和运算符。运算符有:等于、不等于,小于,小于等于,大于,大于等于,NO_OP等。比较器为键或值得比较提供比较方式:Bina...原创 2014-12-22 18:17:02 · 239 阅读 · 0 评论 -
hadoop+hbase+hive日常异常记录
1. 在hvie关联hbase创建外部表时报错: hive> CREATE EXTERNAL table dmp_user_register(key string,address string,gpsx string,gpsy string,loginid string,nettype string,runmode string,apkversion string,channel...原创 2015-01-12 14:37:37 · 210 阅读 · 0 评论 -
HBase的long GC与 Zookeeper lease expired的权衡(转载)
问题和现象:这是一个连锁反应:1)RegionServer在遇到"Stop-The-World" GC时,会停止一切工作,这样与Zookeeper保持的心跳,就会停止。2)Zookeeper在没有收到注册节点的心跳时,就会删除对应rs对应节点。3)HMaster的ServerManager会发现这个RegionServer出现了问题,然后交由ServerShutdownHandler处理。4)HM...原创 2015-01-15 10:05:54 · 440 阅读 · 0 评论 -
hbase结合hive和sqoop实现导数据到mysql
[size=large][b]hive整合hbase表的两点好处:[/b][/size][color=blue][size=medium][b] 1.实现数据导入到MYSQL。 2.实现hbase表转换为另外一张hbase表。[/b][/size][/color]三个操作环节: 1.hbase关联hive作为外部表:[code="sql"]CREATE E...原创 2014-08-21 18:07:27 · 235 阅读 · 0 评论 -
HBASE在QIHOO 360搜索中的应用
【优快云现场报道】中国IT界技术盛会——Hadoop与大数据技术大会(Hadoop&BigData Technology Conference 2012,HBTC 2012)于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题,聚焦于Hadoop与大 数据,力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业,探讨...原创 2015-04-07 14:10:58 · 388 阅读 · 0 评论 -
HBASE COPROCESSOR EndPoint实例
问题导读:1、统计总行数,理想的方式应该是怎样?2、什么是Endpoint,怎样去实现它 ?3、有哪几种方式去部署 ?前言:如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过...原创 2015-04-18 15:26:47 · 210 阅读 · 0 评论 -
hbase0.94之后split策略
问题导读1.而在0.94版本之后,默认split策略修改为了什么?2.这种策略有什么好处?HBase 0.94中的Split策略HBase 0.94之前版本中,split使用的是ConstantSizeRegionSplitPolicy。当region中文件大小超过配置中所指定大小时,会进行切分。而在0.94版本之后,默认split策略修改为了IncreasingToUpperBound...原创 2015-04-18 15:57:19 · 147 阅读 · 0 评论 -
HBASE数据架构
1、数据结构 关系数据库一般用B+树,HBASE用的是LSM树。MYSQL所用类B+树一般深度不超过3层,数据单独存放,在B+树的叶节点存储指向实际数据的指针,叶节点之间也相互关联,类似双向链表。这种结构的特点是数据更新或写入导致数据页表分散,不利于顺序访问。LSM存储中,各个文件的结构类似于B+树,但是分多个存在内存或磁盘中,更新和写入变成了磁盘的顺序写,只在合并时去掉重复或过...原创 2014-12-17 09:38:10 · 183 阅读 · 0 评论