
hbase
hbase学习笔记及工作中问题整理
陈同学:
这个作者很懒,什么都没留下…
展开
-
hbase学习笔记-hbase二级索引
hbase表后期按照rowkey查询性能是最高的。rowkey就相当于hbase表的一级索引,但是在实际的工作中,我们做的查询基本上都是按照一定的条件进行查找,无法事先知道满足这些条件的rowkey是什么,正常是可以通过hbase过滤器去实现。但是效率非常低,这是由于查询的过程中需要在底层进行大量的文件扫描hbase的二级索引为了HBase的数据查询更高效、适应更多的场景,诸如使用非r...原创 2020-03-19 11:26:30 · 371 阅读 · 0 评论 -
hbase学习笔记-phoenix安装部署
phoenix安装部署准备需要先安装好hbase集群,phoenix只是一个工具,只需要在一台机器上安装就可以了1、下载安装包从对应的地址下载:http://mirrors.cnnic.cn/apache/phoenix/这里我们使用的是phoenix-4.8.2-HBase-1.2-bin.tar.gz2、上传解压tar -zxvf phoenix-4.8.2-HB...原创 2020-03-19 11:23:01 · 251 阅读 · 0 评论 -
hbase学习笔记-hbase集成hive
Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql 语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。1 整合配置1、修改hive-site.xml文件,添加配置属性 <property> <name>hbase.zookeeper.quor...原创 2020-03-19 11:03:24 · 141 阅读 · 0 评论 -
hbase学习笔记-bulkload方式批量加载数据到HBase
加载数据到HBase当中去的方式多种多样,我们可以使用HBase的javaAPI或者使用sqoop将我们的数据写入或者导入到HBase当中去,但是这些方式不是慢就是在导入的过程的占用Region资料导致效率低下,我们也可以通过MR的程序,将我们的数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase当中去即可.优势(1).导入过程不占用Region资源...原创 2020-03-19 10:18:23 · 634 阅读 · 0 评论 -
hbase学习笔记-过滤器
过滤器的类型很多,但是可以分为两大类——比较过滤器,专用过滤器过滤器的作用是在服务端判断数据是否满足条件,然后只将满足条件的数据返回给客户端;1 hbase过滤器的比较运算符LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL >=GREATER >2 hbase过滤器的比较...原创 2020-03-19 09:54:42 · 219 阅读 · 0 评论 -
hbase学习笔记-增删改查操作
创建Maven工程,添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> ...原创 2020-03-19 09:22:27 · 369 阅读 · 0 评论 -
hbase学习笔记-表预分区
hbase表的预分区当一个table刚被创建的时候,Hbase默认的分配一个region给table。也就是说这个时候,所有的读写请求都会访问到同一个regionServer的同一个region中,这个时候就达不到负载均衡的效果了,集群中的其他regionServer就可能会处于比较空闲的状态。解决这个问题可以用pre-splitting,在创建table的时候就配置好,生成多个region。...原创 2020-03-18 12:46:03 · 178 阅读 · 0 评论 -
hbase学习笔记-regiion拆分、合并
region 拆分机制region中存储的是大量的rowkey数据 ,当region中的数据条数过多的时候,直接影响查询效率.当region过大的时候.hbase会拆分region , 这也是Hbase的一个优点 .HBase的region split策略一共有以下几种:1、ConstantSizeRegionSplitPolicy0.94版本前默认切分策略当region大小大于...原创 2020-03-18 12:34:10 · 148 阅读 · 0 评论 -
hbase学习笔记-flush、compact机制
1 Flush机制(1)当memstore的大小超过这个值的时候,会flush到磁盘,默认为128M<property> <name>hbase.hregion.memstore.flush.size</name> <value>134217728</value></property>(2)当memst...原创 2020-03-18 12:14:38 · 472 阅读 · 0 评论 -
hbase学习笔记-数据存储原理、读写数据流程
1. hbase的数据存储原理一个HRegionServer会负责管理很多个region一个region包含很多个store划分规则一个列族就划分成一个store,如果一个表中只有1个列族,那么每一个region中只有一个store一个store里面只有一个memstorememstore是一块内存区域,数据会先写入到memstore进行缓冲,然后再把数据刷到磁盘...原创 2020-03-18 11:48:54 · 218 阅读 · 0 评论 -
hbase学习笔记-架构及原理
1.1 hbase的概念hbase基于Google的BigTable论文,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时,可以使用hbase。1.2 hbase的特点海量存储可以存储大批量的数据列式存储hbase表的数据是基于列族进行存储的,列族是在列的方向上的划分。极易扩展底...原创 2020-03-18 09:37:16 · 192 阅读 · 0 评论 -
hbase学习笔记-常用shell操作
1、进入Hbase客户端命令操作界面hbase shell2、查看帮助命令hbase(main):001:0> help3、查看当前数据库中有哪些表hbase(main):006:0> list4、创建一张表创建student表, 包含base_f1、base_f2两个列族hbase(main):007:0> create 'student', 'bas...原创 2020-03-17 15:50:38 · 925 阅读 · 0 评论 -
hbase学习笔记-hbase集群安装部署
1、下载安装包http://archive.apache.org/dist/hbase2、规划安装目录/opt/hbase3、上传安装包到服务器4、解压安装包到指定的规划目录tar -zxvf hbase-2.0.0-bin.tar.gz -C /opt/bigdata5、重命名解压目录mv hbase-2.0.0 hbase6、修改配置文...原创 2020-03-17 15:08:43 · 163 阅读 · 0 评论