
hbase-海量数据实时随机查询
文章平均质量分 87
hbase-海量数据实时随机查询
码太狼
这个作者很懒,什么都没留下…
展开
-
hbase客户端源码分析
客户端版本1.2.x下面是一段比较常见hbase客户端连接server查询的代码。Connection connection = ConnectionFactory.createConnection(conf);HTable table=connection.getTable(TableName.valueOf("myTable"), Executors.newFixedThreadPool(10));Result result = table.get(new Get("myRowKey".getB原创 2020-10-22 19:34:28 · 890 阅读 · 0 评论 -
spark读写hbase数据
如果原始数据在hbase中,这时想用spark对hbase数据做一些批量计算,就可以用spark的api直接读写hbase数据读取hbase数据import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.a原创 2018-01-17 19:10:16 · 4336 阅读 · 0 评论 -
hive对接hbase(一)-配置和使用例子
1.配置配置hive-site.xml,除了增加hive-hbase-handler-xxx.jar之外,在需要进行一些mapreduce计算的时候计算节点还需要hbase的jar来访问hbase,还要增加其它hbase访问的jar。property> name>hive.aux.jars.pathname> value>file:/opt/hive/lib/hive-hb原创 2018-01-17 14:12:01 · 4623 阅读 · 0 评论 -
spark通过hfile向hbase导入数据
hbase的put api是通过hbase的regionserver向hbase插入数据,虽然这种方式插入速度极快,但是在插入过程中region会不断的split和compact,split和compact都会占用大量的计算资源和io,同时这一过程中也会短暂的中断服务。 hbase的数据文件是保存在region的hfile上,通过直接写入数据到hfile,并将hfile保存到hbase中,这种方原创 2018-01-17 19:33:19 · 5164 阅读 · 0 评论 -
hbase远程调试
hbase远程调试原创 2017-11-30 18:10:54 · 2828 阅读 · 0 评论 -
hbase上部署phoenix
1.什么是phoenixphoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟、事务性、可使用sql、提供jdbc接口的特点。 而且phoenix还提供了hbase二级索引的解决方案,丰富了hbase查询的多样性,继承了hbase海量数据快速随机查询的特点。2.下载phoenix到官网 http://phoenix.apache.org/downlo原创 2017-09-19 13:56:26 · 4968 阅读 · 0 评论 -
hbase1.3配置snappy压缩
hbase1.3配置snappy压缩对hbase数据进行压缩的算法很多,snappy、lz0,lz4,gz等。压缩和不压缩相比,在写入时的编码速度和读时的解码速度都有一定的cpu损耗,但是在容量上都能降低30%甚至更多,就是一种用cpu计算来换空间的取舍。原创 2017-12-14 23:36:07 · 4210 阅读 · 0 评论 -
HBase各版本对Hadoop版本的支持情况
HBase各版本对Hadoop版本的支持情况原创 2017-11-17 13:06:53 · 5362 阅读 · 0 评论 -
hbase(九)-hbase的索引LSM树
说LSM(Log-Structured Merge Tree)之前先说一下B+树,B+树在关系型数据库里面非常常见,oracle、mysql里面的索引算法都是B+树。1.B+树相信大家对B+树已经非常的熟悉,比如Oracle的普通索引就是采用B+树的方式,下面是一个B+树的例子: 根节点和枝节点很简单,分别记录每个叶子节点的最小值,并用一个指针指向叶子节点。 叶子节点里每个键值都指原创 2018-01-24 10:35:36 · 3824 阅读 · 0 评论 -
hbase(八)-hbase的compact
HBase是基于LSM树存储模型的分布式NoSQL数据库。LSM树对比普遍的B+树来说,能够获得较高随机写性能的同时,也能保持可靠的随机读性能。在进行读请求的时候,LSM树要把多个子树(类似B+树结构)进行归并查询,对于HBase来说,这些子树就是HFile(还包括内存上的树结构MemStore)。因此归并查询的子树数越少,查询的性能就越高。1.Compact的作用当MemStore超原创 2018-01-24 10:24:23 · 3984 阅读 · 0 评论 -
hbase(七)-region分裂过程
1、RegionServer决定本地的region分裂,并准备分裂工作。第一步是,在zookeeper的/hbase/region-in-reansition/region-name下创建一个znode,并设为SPLITTING状态。2、Master通过父region-in-transition znode的watcher监测到刚刚创建的znode。3、RegionServer在HDFS中父r原创 2018-01-24 10:23:43 · 4903 阅读 · 0 评论 -
hbase(六)-事务并发控制机制原理
作为一款优秀的非内存数据库,HBase和传统数据库一样提供了事务的概念,只是HBase的事务是行级事务,可以保证行级数据的原子性、一致性、隔离性以及持久性,即通常所说的ACID特性。为了实现事务特性,HBase采用了各种并发控制策略,包括各种锁机制、MVCC机制等。本文首先介绍HBase的两种基于锁实现的同步机制,再分别详细介绍行锁的实现以及各种读写锁的应用场景,最后重点介绍MVCC机制的实现策略原创 2018-01-23 21:25:56 · 3603 阅读 · 0 评论 -
hbase(五)-hbase优化
1. 预先分区默认情况下,在创建 HBase 表的时候会自动创建一个 Region 分区,当导入数据的时候,所有的 HBase 客户端都向这一个 Region 写数据,直到这个 Region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 Regions,这样当数据写入 HBase 时,会按照 Region 分区情况,在集群内做数据的负载均衡。2.原创 2018-01-24 09:12:30 · 3477 阅读 · 0 评论 -
hbase(四)-regionserver相关问题
1.hbase读的过程 1,Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息。 2,根据namespace、表名和rowkey在meta表中找到对应的region信息 3,找到这个region对应的regionserver 4,查找对应的region 5,先从MemSto原创 2018-01-24 10:05:45 · 3784 阅读 · 0 评论 -
hbase(三)-基本的hbase shell命令
HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。 HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等、对region进行相关操作等。在hbase启动之后,在命令里面输入“hbase shell”可以进入hbase shell的操作界面.原创 2018-01-23 01:03:17 · 4371 阅读 · 0 评论 -
hbase(二)-hbase设计以及原理
一、简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的存储和读取服务。而从应用的角度来说,HBase与一般的数据库又有所区别,H原创 2018-01-23 00:40:52 · 4835 阅读 · 0 评论 -
hbase(一)-集群模式搭建
1.简介本文是hbase入门安装,装起后可以慢慢熟悉hbase相关功能。2.实验环境 机器 hdfs hbase 192.168.1.28(node28) namenode,secondarynode hmaster 192.168.2.11(node11) datanode regionserver 192.168.2.1...原创 2017-07-19 16:37:54 · 4338 阅读 · 0 评论