
HBase
XiaoGuang-Xu
主要从事Hadoop Spark Flink,兴趣爱好:数据挖掘和机器学方向
展开
-
CDH HBASE使用Solr创建二级索引,更新删除索引
CDH HBASE使用solr创建二级索引,更新删除索引转载: https://blog.youkuaiyun.com/u010936936/article/details/78064148?locationNum=10&fps=1关于为什么要创建hbase二级索引,这里不再赘述,直接开始安装配置 1.环境准备 ①安装HBASE,solr, Key-Value S...转载 2018-08-17 15:16:53 · 1032 阅读 · 0 评论 -
Hbase的TTL字段超时设置测试
Hbase的TTL字段超时设置测试原文: http://blog.youkuaiyun.com/wulantian/article/details/41010947在工作中,很多时候需要对表字段进行限定,例如限定一列的超时时间等。今天就总结一下:1. 做Hbase表做更改前,首先要disable 这个表,否则记录会丢失。首先,我们建立一个测试表test,有一个列簇fa转载 2017-06-15 10:48:15 · 548 阅读 · 0 评论 -
hbase的cache与batch的理解
hbase的cache与batch的理解http://www.cnblogs.com/editice/archive/2013/04/22/3035728.htmlcache: 在默认情况下,如果你需要从hbase中查询数据,在获取结果ResultScanner时,hbase会在你每次调用ResultScanner.next()操作时对返回的转载 2017-07-05 12:53:21 · 389 阅读 · 0 评论 -
提升HBase写性能
提升HBase写性能本文主要介绍软件层面的性能调优。故,在此之前,请检查硬件状况。硬盘推荐SSD,一般SATA即可。网络千兆以上。可以安装Ganglia等工具,检查各节点的各硬件的运作状态:CPU,Memo,网络等等。 调整参数入门级的调优可以从调整参数开始。投入小,回报快。 1. Write Buffer Size转载 2017-07-01 18:18:48 · 288 阅读 · 0 评论 -
HBase之表空间
HBase之表空间http://www.cnblogs.com/similarface/p/5821224.html1、介绍在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namesp转载 2017-06-30 18:04:58 · 944 阅读 · 0 评论 -
HBase Java简单示例
HBase Java简单示例原味:http://www.cnblogs.com/zhenjing/p/hbase_example.html转载 2014-05-28 23:48:18 · 706 阅读 · 0 评论 -
深入HBase架构解析
前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译、半原创吧。HBase架构组成HBase采转载 2017-06-19 14:16:54 · 376 阅读 · 0 评论 -
Hbase服务启动以及shell命令使用遇到的问题
Hbase服务启动以及shell命令使用遇到的问题原创 2017-06-06 10:55:43 · 1738 阅读 · 0 评论 -
Spark 写入hbase 遇到的问题
1: Spark 写入hbase 遇到的问题写入时间较长解决方案:原创 2017-05-27 09:16:34 · 1135 阅读 · 0 评论 -
HBase最佳实践-列族设计优化
问题导读:1.BLOCKSIZE属性在不同场景下应该如何设置?2.COMPRESSION属性和DATA_BLOCK_ENCODING属性的区别是什么?3.Hbase需要注意哪些设计原则?随着大数据的越来越普及,HBase也变得越来越流行。会用HBase现在已经变的并不困难,然而,怎么把它用的更好却并不简单。那怎么定义‘用的好’呢?很简单,在保证系统稳转载 2017-06-15 10:57:10 · 419 阅读 · 0 评论 -
HBase最佳实践-读性能优化策略
HBase最佳实践-读性能优化策略任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。Hbase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是hbase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章转载 2017-06-15 10:58:15 · 445 阅读 · 0 评论 -
Spark读取Hbase报错总结
1 : 发生空指针异常,但是最终任务还是运行成功。java.lang.RuntimeException: java.lang.NullPointerException at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:208) at org.apache.had...原创 2018-06-21 10:41:30 · 1016 阅读 · 0 评论 -
集群中RegionServer hadoopserver03 的GC日志分析
集群中RegionServer hadoopserver03 的GC日志分析Java HotSpot(TM) 64-Bit Server VM (25.71-b15) for linux-amd64 JRE (1.8.0_71-b15), built on Dec 22 2015 18:21:33 by "java_re" with gcc 4.3.0 20080428 (Red Hat 4.3...原创 2018-05-30 13:54:59 · 823 阅读 · 0 评论 -
Spark使用newAPIHadoopRDD 直接读取Hbase遇到的问题
Spark使用newAPIHadoopRDD 直接读取Hbase遇到的问题数据表数据量大概:1.8TJavaPairRDD<ImmutableBytesWritable, Result> hbaseRDD = jsctx.newAPIHadoopRDD(conf, TableInputFormat.class,ImmutableBytesWritable...原创 2018-04-21 09:36:35 · 6355 阅读 · 2 评论 -
HBase如何合理设置客户端Write Buffer
Hbase客户端API提供了Write Buffer的方式,即批量提交一批Put对象到hbase服务端。本文将结合HBase相关源码,对其进行深入介绍,分析如何在实际项目中合理设置和使用它。什么时候需要Write Buffer?默认情况下,一次Put操作即要与Region Server执行一次RPC操作,其执行过程可以被拆分为以下三个部分:T1:RTT(Round-Trip转载 2017-07-24 12:45:21 · 427 阅读 · 0 评论 -
Hbase行键过滤器RowFilter
RowFilter是用来对rowkey进行过滤的,比较符如下:OperatorDescriptionLESS小于LESS_OR_EQUAL小于等于EQUAL等于NOT_EQUAL不等于转载 2017-07-17 12:30:41 · 570 阅读 · 0 评论 -
HBase原理-数据读取流程解析
HBase原理-数据读取流程解析和写流程相比,Hbase读数据是一个更加复杂的操作流程,这主要基于两个方面的原因:其一是因为整个hbase存储引擎基于LSM-Like树实现,因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件;其二是因为HBase中更新操作以及删除操作实现都很简单,更新操作并没有更新原有数据,而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据转载 2017-06-15 12:26:14 · 567 阅读 · 0 评论 -
HBase - 数据写入流程解析
HBase - 数据写入流程解析众所周知,Hbase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松地支撑每天10T的写入量。当然,为了支持更高吞吐量的写入,hbase还在不断地进行优化和修正,这篇文章结合0.98版本的源码全面地分析HBase的写入流程,全文分为三个部分,第一部分介绍客户端的写入流程,第二部分介绍服务器端的写入流程,最后再重点分转载 2017-06-15 11:21:44 · 474 阅读 · 0 评论 -
HBase最佳实践-写性能优化策略
HBase最佳实践-写性能优化策略上一篇文章主要介绍了Hbase读性能优化的基本套路,本篇文章来说道说道如何诊断hbase写数据的异常问题以及优化写性能。和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小转载 2017-06-15 11:00:54 · 419 阅读 · 0 评论 -
Spark写入Hbase表预分区插入测试
1:进行预分区的表2:没有进行预分区的表原创 2017-05-23 23:37:54 · 1174 阅读 · 0 评论 -
hbase性能调优
hbase性能调优出处:http://www.iteye.com一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现转载 2017-05-23 16:59:01 · 401 阅读 · 0 评论 -
hbase参数配置优化
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,Reigon转载 2017-05-23 14:07:06 · 321 阅读 · 0 评论 -
使用HBase EndPoint(coprocessor)进行计算
使用HBase EndPoint(coprocessor)进行计算url:http://www.searchtb.com/2014/03/using-hbase-endpoint.html如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~常转载 2014-12-31 22:32:17 · 662 阅读 · 0 评论 -
HBASE性能优化方法
HBASE性能优化方法:下面是学习的URl:可以参考作为经验的积累HBASE性能优化方法总结URL: HTTP://WWW.BLOGJAVA.NET/PAULWONG/ARCHIVE/2012/11/29/392232.HTMLHBase性能优化方法总结(一):表的设计 http://www.cnblogs.com/panfeng412/archive/2012/03/原创 2014-12-05 13:11:18 · 666 阅读 · 0 评论 -
Hbase 用HTablePool 类获取hbaseTable报错
hbase 用HTablePool 类获取hbaseTable报错Exception in thread "main" java.lang.ClassCastException: org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apache.hadoop.hbase.client.HTable...转载 2014-05-27 23:36:46 · 2107 阅读 · 2 评论 -
HBase图形界面管理工具HBaseXplorer发布1.0.2
HBase图形界面管理工具HBaseXplorer发布1.0.2http://www.cnblogs.com/scotoma/archive/2012/12/18/2824311.html转载 2014-05-27 23:46:40 · 4372 阅读 · 0 评论 -
HBase Scan类用法
public static void main(String[] args) throws IOException { //Scan类常用方法说明 //指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columns; // scan.addFamily(); // sc转载 2014-05-28 12:48:04 · 600 阅读 · 0 评论 -
HBase性能优化方法总结
HBase性能优化方法总结URL: http://www.blogjava.net/paulwong/archive/2012/11/29/392232.html本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creatin转载 2014-12-01 13:29:23 · 573 阅读 · 0 评论 -
Hbase总结(八)Hbase中的Coprocessor
http://blog.youkuaiyun.com/lifuxiangcaohui/article/details/399911831.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(统计数据表的总行数,需要使用Counter方法,执行一次MapReduc转载 2015-04-02 09:10:15 · 546 阅读 · 0 评论 -
HBase 写优化之 BulkLoad 实现数据快速入库
HBase 写优化之 BulkLoad 实现数据快速入库http://my.oschina.net/leejun2005/blog/187309目录[-]1、为何要 BulkLoad 导入?传统的 HTableOutputFormat 写 HBase 有什么问题?2、bulkload 流程与实践3、说明与注意事项:4、Refer:转载 2015-05-14 16:38:43 · 718 阅读 · 0 评论 -
Windows环境下搭建HBase源码开发环境
本文基于博主自己的经验介绍了如何在Windows环境下搭建Hbase源码开发环境,用于查看,分析,开发,提交HBase源码。 HBase在Windows下编译时需要用到Hadoop提供的winutils.exe, 而winutils.exe需要从Hadoop源码编译得到,因此将也同时介绍如何在Windows上编译Hadoop源码。前提条件首先,我们的系统的上需要安装如下软件:转载 2017-02-28 21:51:28 · 577 阅读 · 0 评论 -
通过BlukLoad的方式快速导入海量数据
通过BlukLoad的方式快速导入海量数据http://www.cnblogs.com/MOBIN/p/5559575.html摘要加载数据到HBase的方式有多种,通过HBase API导入或命令行导入或使用第三方(如sqoop)来导入或使用MR来批量导入(耗费磁盘I/O,容易在导入的过程使用节点宕机),但是这些方式不是慢就是在导入的过程的占用Re转载 2016-07-20 23:00:20 · 1357 阅读 · 0 评论 -
HBase HLog结构和原理
转载URL: http://greatwqs.iteye.com/blog/1845897一. HLog在HDFS上位置和RegionServer对应关系HLog持久化在HDFS之上, HLog存储位置查看:Java代码 hadoop fs -ls /hbase/.logs 通过HBase架构图, HLog与HRegionS转载 2016-03-31 07:58:41 · 7164 阅读 · 1 评论 -
HBase数据迁移(1)
学习资料:http://www.importnew.com/all-postsHBase数据迁移(1)http://www.importnew.com/3226.html全文检索引擎Solr系列——整合中文分词组件IKAnalyzerhttp://www.importnew.com/12918.html转载 2015-05-22 18:32:57 · 462 阅读 · 0 评论 -
基于Solr的HBase多条件查询测试
基于Solr的HBase多条件查询测试http://blog.youkuaiyun.com/kky2010_110/article/details/12970029转载 2014-06-06 18:55:26 · 594 阅读 · 0 评论 -
案例一(HBase+Lucene)
案例一(HBase+Lucene)http://www.cnblogs.com/linjiqin/archive/2013/06/06/3121037.html转载 2014-05-28 12:44:57 · 695 阅读 · 0 评论 -
HBase 系统架构
HBase 系统架构http://www.cnblogs.com/shitouer/archive/2012/06/04/2533518.htmlHBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1转载 2015-05-21 09:11:27 · 438 阅读 · 0 评论 -
Hadoop Mapper 阶段将数据直接从 HDFS 导入 Hbase
数据源格式如下:?1220130512 1 -1 -1 13802 1 2013-05-1207:26:2220130512 1 -1 -1 13802 1 2013-05-1211:18:24转载 2015-05-15 15:17:08 · 474 阅读 · 0 评论 -
HBase导入大数据三大方式
HBase导入大数据三大方式之(一)——hive类SQL语句方式 HBase导入大数据三大方式之(二)——importtsv +completebulkload 方式转载 2014-06-06 19:04:54 · 718 阅读 · 0 评论