
Hbase
等你下课_
努力起码可以大器晚成
展开
-
Hbase---19.9.12
http://abloz.com/hbase/book.html#ides四个主要的数据模型操作是 Get, Put, Scan, 和 Delete. 通过 HTable 实例进行操作.四个主要的数据模型操作是 Get, Put, Scan, 和 Delete.Get 返回特定行的属性。Gets 通过 HTable.get 执行。Put 要么向表增加新行 (如果key是新的) 或...原创 2019-09-12 21:54:23 · 191 阅读 · 0 评论 -
WAL日志为何是共享一个而不是每个region一个,以及Hlog的切分
Hlog文件hadoop sequenceFile文件,以keyvalue的形式存储数据如果每个region使用一个日志文件,则一个regionserver会有多个日志文件,同时并发写入不同的文件时,会有磁盘寻道和IO,会造成效率和可拓展性的降低。 如果有多个WAL文件,当region server故障后,需要对日志进行拆分才可以部署到新的server上,wal过多中间的等待时间长Hlog...原创 2019-09-14 17:06:54 · 846 阅读 · 0 评论 -
Hbase过滤器
Hbase通过过滤器减少网络传输的数据,过滤器在regionserver中起作用数据仍然需要从磁盘读到regionserver,因为Hbase表存储大量的数据,网络IO的节省更有意义,如果先读出所有数据传到客户端再过滤出有用数据,IO开销很大主要有六种过滤器:比较器、列值过滤器、键值元数据过滤器、行键过滤器、功能过滤器、布隆过滤器比较器一般与其他过滤器结合使用列值过滤器列值相等...原创 2019-09-14 14:17:23 · 443 阅读 · 0 评论 -
Hbase和HIve区别
Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用Hive可以使用HQL语言查询存放在HDFS上的数据,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询Hbase是非结构化半结构化数据库,运行在HDFS之上,key value数据库,Hbase...原创 2019-09-14 13:47:26 · 252 阅读 · 0 评论 -
rowKey的设计原则
row key长度原则不应设计过长,row key是冗余存储,数据的持久化文件HFile 中是按照KeyValue 存储的,row key越长会影响Hfile的存储效率 MemStore 将缓存部分数据到内存,Rowkey 字段过长内存的有效利用率会降低,系统将无法缓存更多的数据,这会降低检索效率Row key散列原则row key尽量散列,将Rowkey的高位作为散列字段,将提高数据...原创 2019-09-14 13:23:22 · 836 阅读 · 0 评论 -
请描述如何解决Hbase中region太小和region太大带来的冲突.
Region过大会发生多次compaction,将数据读一遍并重写一遍到hdfs 上,占用io region过小会造成多次split,region 会下线,影响访问服务调整hbase.hregion.max.filesize 为256m....原创 2019-09-14 13:15:18 · 1743 阅读 · 2 评论 -
region合并
https://www.cnblogs.com/smartloli/p/9649673.html合并出现RIT问题?一直有region在迁移原创 2019-09-14 12:51:19 · 399 阅读 · 0 评论 -
storeFile合并(compact)
memstore的flush操作会逐渐增加磁盘上的storeFile文件,当文件数量达到一定程度后,会将这些文件合并成规模更小但更大的文件,当最大的文件达到设置的阈值后,会进行region 的切分Compact 的作用:1>.合并文件2>.清除过期,多余版本的数据3>.提高读写数据的效率HBase 中实现了两种 compaction 的方式:minor and...原创 2019-09-14 12:45:40 · 942 阅读 · 0 评论 -
Hbase region 的切分过程
需根据Hbase的目录结构来分析,该过程完成迅速,只是在为region创建两个引用文件,每个持有原region的一半HBase将整个切分过程包装成了一个事务,意图能够保证切分事务的原子性。首先regionserver在父region下创建切分目录,当创建成功后会关闭该region 在切分目录下创建相应的文件结构:两个子region目录以及引用文件,每个引用文件指向原始reion的一...原创 2019-09-14 12:23:11 · 642 阅读 · 0 评论 -
region server发生故障后的处理过程
每个region server 会有一个Hlog对象,每次用户的请求写入在写入memstore之前都会先写入Hlog对象,当Hlog写满会被flush到磁盘当region server 发生故障时,zookeeper不能和region server保持通信,则会删除该region server节点, master通过watcher感知到后,首先会处理Hlog,将其中不同region的log拆...原创 2019-09-14 12:09:09 · 1393 阅读 · 0 评论 -
Hbase简介
访问Hbase主要有三种方式通过单个row key访问 通过row key的range 全表扫描存储时,数据按照Row key的字典序(byte order)排序存储。设计key时,要充分利用排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,…,9,91...原创 2019-09-13 23:00:18 · 330 阅读 · 0 评论 -
Hbase的特点
hbase分布式基于列式存储的数据库,基于hadoop的hdfs存储,通过zookeeper进行管理,依赖zookeeper hbase适合存储半结构化或非结构化的数据,特别是一些数据结构字段不够明确或者杂乱无章很难按一个概念去抽取的数据 hbase是主从架构,hmaster是主节点,hregionserver是从节点 表包含行键(row key),列族column family,列(key...原创 2019-09-13 20:16:59 · 245 阅读 · 0 评论 -
Hbase负载均衡
HBase通过Region数量实现简单的负载均衡三种负载均衡技术:1、全局计划2、随机分配计划3、批量启动分配计划全局计划:最常见的负载均衡,贯穿在整个集群的平衡运行期内,负载均衡以特定时间间隔(hbase.balancer.period默认是5分钟)执行下列情景不进行负载均衡:均衡负载开关balanceSwitch关闭。 HMaster未完成初始化操作。 RI...原创 2019-09-13 20:09:35 · 696 阅读 · 0 评论