
hbase
文章平均质量分 87
hbase
风筝Lee
儿时,你是父母手中的风筝;上学了,你是老师手中的风筝;工作了,你是领导手中的风筝;成家了,你是妻子手中的风筝;老时,你是子女手中的风筝。人生就像风筝,总有一根线牵着你,或长、或短,或紧、或松;你在这头,爱你的人就在那头。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBase——Replication(复制)原理
前言Replication:复制,指的是持续的将同一份数据拷贝到多个地方进行存储,是各种存储系统中常见而又重要的一个概念,可以指数据库中主库和从库的复制,也可以指分布式集群中多个集群之间的复制,还可以指分布式系统中多个副本之间的复制。它的难点在于数据通常是不断变化的,需要持续的将变化也反映到多个数据拷贝上,并保证这些拷贝是完全一致的。通常来说,数据复制到多个拷贝上有如下好处: 多个备份提高了数据的可靠性 通过主从数据库/主备集群之间的复制,来分离OLTP和OLAP请求转载 2021-06-22 14:21:05 · 1419 阅读 · 0 评论 -
hbase hbck及region RIT处理
hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。hbase hbck :检查hbase所有表的一致性,如果正常,就会Print OKhbase hbck -details:检查hbase所有表的一致性,并且输出详细报告。hbase hbck table1 table2:指定检查某些表,可以输入多个表,用空格隔开。HBCK - HBCK检查什么?(1)HBase Region一致性集群中所有region都被assign,而..转载 2021-05-18 15:40:13 · 1114 阅读 · 0 评论 -
HBase MemStore简介
MemStore 是 HBase 非常重要的组成部分,MemStore 作为 HBase 的写缓存,保存着数据的最近一次更新,同时是HBase能够实现高性能随机读写的重要组成。MemStoreHBase Table 的每个 Column family 维护一个 MemStore,当满足一定条件时 MemStore 会执行一次 flush,文件系统中生成新的 HFile。而每次 Flush 的最小单位是 Region。MemStore的主要作用: 更新数据存储在 MemStore 中,使转载 2021-01-24 18:41:42 · 881 阅读 · 1 评论 -
HBase中LSM-tree的应用
前言传统的关系型数据库一般使用B树作为索引结构,而在大数据场景下,比较多的存储引擎使用LSM-tree这种数据结构,比如hbase、kudu等,本篇文章介绍下HBase中LSM-tree的具体应用以及针对读性能的具体优化机制(compaction、应用BloomFilter以及BlockCache),HBase中的LSM应用我们知道LSM树的存储结构由2部分组成,一部分是内存部分,一部分是磁盘部分。在hbase实现中,内存部分采用跳跃表来维护一个有序的KeyV...原创 2020-12-17 23:50:08 · 992 阅读 · 0 评论 -
LSM-Tree介绍
前言2006年的OSDI有两篇Google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了BigTable,比如Google Earth和Google Analytics,因此它和GFS、MapReduce并称为谷歌技术"三宝"。Google发布的BigTable这篇论文的一个很有价值的方面是它使用原创 2020-12-16 23:03:28 · 14120 阅读 · 0 评论 -
LSM Tree存储组织结构介绍
LSM Tree(Log Structured Merge Trees)数据组织方式被应用于多种数据库,如LevelDB、HBase、Cassandra等,下面我们从为什么使用LSM tree、LSM tree的实现思路两方面介绍这种存储组织结构,完成对LSM tree的初步了解。存储背景回顾LSM tree相较B+树或其他索引存储实现方式,提供了更好的写性能。究其原因,我们先回顾磁盘相关的一点背景知识。顺序操作磁盘的性能,较随机读写磁盘的性能高很多,我们实现数据库时,也是围绕磁盘的这点特性进行转载 2020-12-15 22:24:27 · 445 阅读 · 0 评论 -
OpenTSDB 数据存储详解
随着互联网、尤其是物联网的发展,我们需要把各种类型的终端实时监测、检查与分析设备所采集、产生的数据记录下来,在有时间的坐标中将这些数据连点成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。这些数据的典型特点是:产生频率快(每一个监测点一秒钟内可产生多条数据)、严重依赖于采集时间(每一条数据均要求对应唯一的时间)、测点多信息量大(实时监测系统均有成千上万的监测点,监测点每秒钟都产生数据,每天产生几十GB的数据量)。基于时间序列数据的特点,转载 2020-11-30 22:45:15 · 1088 阅读 · 0 评论 -
58HBase平台实践和应用—时序数据库篇
OpenTSDB是一个分布式、可伸缩的时序数据库,支持高达每秒百万级的写入能力,支持毫秒级精度的数据存储,不需要降精度也可以永久保存数据。其优越的写性能和存储能力,得益于其底层依赖的HBase,HBase采用LSM树结构存储引擎加上分布式的架构,提供了优越的写入能力,底层依赖的完全水平扩展的HDFS提供了优越的存储能力。在58,OpenTSDB目前主要用于数据平台监控系统中相关性能指标的存储查询,58智能监控系统中回归模型和分类模型原始明细数据存储查询,以及风铃监控预警系统数据的存储查询等。Open转载 2020-11-29 22:57:59 · 1077 阅读 · 0 评论 -
OpenTSDB介绍
OpenTSDB 2.0, the scalable, distributed time series database可扩展、分布式时间序列数据库1、背景一些老的监控系统,它常常会出现这样的问题:1)中心化数据存储进而导致单点故障。2)有限的存储空间。3)数据会因为时间问题而变得不准确。4)不易于定制图形。5)不能扩展采集数据点到100亿级别。6)不能扩展metrics到K级别。7)不支持秒级别的数据。OpenTSDB解决上面的问题:1、它用hbase存储所有的转载 2020-11-23 23:03:17 · 377 阅读 · 0 评论 -
一文读懂HBase多租户
本文从三个方面介绍了HBase的多租户实现。多租户(multi-tenancy technology),参考维基百科定义,它是在探讨与实现如何于多用户的环境下共享相同的系统或程序,并且仍可确保各用户间数据的隔离性。随着云计算时代的到来,多租户对于云上服务显得更加重要。所以HBase也有许多多租户相关的功能,其为多个用户共享同一个HBase集群,提供了资源隔离的能力。本文将从Namespace&ACL,Quota,RSGroup三个方面来进行介绍。Namespace&ACL在HBa转载 2020-11-10 17:49:13 · 614 阅读 · 0 评论 -
hbase架构原理
本篇文章主要从接方面介绍下hbase建构原理相关的内容;一. 什么是hbase?HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。HBase是Google BigTable的开源实现,与Google BigTable利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理BigTable中的海量数据,HBase同样利用Hadoop.转载 2020-10-10 16:51:09 · 378 阅读 · 0 评论 -
HBase compact 总结 及 调优配置
Compaction介绍在HBase中,每当memstore的数据flush到磁盘后,就形成一个storefile,当storefile的数量越来越大时,会严重影响HBase的读性能,所以必须将过多的storefile文件进行合并操作。Compaction是Buffer-flush-merge的LSM-Tree模型的关键操作,主要起到如下几个作用:(1)合并文件(2)清除删除、过期、多余版本的数据(3)提高读写数据的效率HBase中实现了两种compaction的方式:minoran..转载 2020-10-09 20:13:44 · 2279 阅读 · 0 评论 -
hbase balance命令相关
balance主要有四个命令balance_switchbalancerbalancer_enabledbalance_rsgroup(如果开启了rsgroup)1.balance_switchhbase帮助信息:hbase(main):001:0>help 'balance_switch'Enable/Disable balancer. Returns previous balancer state.Examples: hbase> balance...转载 2020-09-01 15:26:49 · 1622 阅读 · 0 评论 -
hbase中balance机制
HBase是一种支持自动负载均衡的分布式KV数据库,在开启balance的开关(balance_switch)后,HBase的HMaster进程会自动根据指定策略挑选出一些Region,并将这些Region分配给负载比较低的RegionServer上。官方目前支持两种挑选Region的策略,一种叫做DefaultLoadBalancer,另一种叫做StochasticLoadBalancer,这两种策略后面会具体讲到。由于HBase的所有数据(包括HLog/Meta/HStoreFile等)都是写入到H..转载 2020-09-01 15:14:27 · 2059 阅读 · 0 评论 -
Hbase用户权限
Hbase用户权限管理HBase提供五个权限标识符:(RWXCA)R - represents read privilege.W - represents write privilege.X - represents execute privilege.C - represents create privilege.A - represents admin privilege.HBase提供的安全管控级别包括:Superuser:拥有所有权限的超级管理员用户,通过hbase.su转载 2020-08-30 00:29:25 · 3421 阅读 · 0 评论 -
Hbase BulkLoad机制
Hbase 是一种基于Hadoop的Nosql的数据库,有高吞吐量的特点,由于近几年国内大数据的概念的快速兴起,Hbase也因为它的高吞吐量和快速的检索能力,得到了越来越多人的青睐,虽说Hbase的吞吐量很高,但是在全量数据的Load的时候不能避免的碰到compact-split风暴,由于Hbase底层region的存储是基于HDFS实现的,所以官方推荐了一种快速进行数据Load的方式。先附上两个链接:http://www.cloudera.com/documentation/enterprise/转载 2020-08-26 12:45:16 · 512 阅读 · 0 评论 -
hbase面试题整理
一.简单介绍下Hbase(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hbase为null的记录不会被存储.(4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本.(5) hbase是主从架构。hmaster作为主节点,hregionserver作为从节点。..转载 2020-07-20 15:51:08 · 687 阅读 · 0 评论 -
HBase Region Assign流程详解
Hbase是kv存储,但是逻辑上我们可以把存储在hbase上的kv数据当成表,rowkey可以认为是表的主键。为了便于分布式操作,hbase会把表横向切分成一块一块的数据,而每块就是一个Region。为了提供在线服务,我们必须把Region加载到集群中的某台机器上,这个加载的过程正是region assign要做的。顺便说一句,hbase中把表切分region和HDFS中文件切分成block,Spark中RDD切分成partitions的思想都是一样的。region assgin的流程region.转载 2020-06-12 16:34:39 · 1506 阅读 · 0 评论 -
hbase hbck及region RIT处理
hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。hbase hbck :检查hbase所有表的一致性,如果正常,就会Print OKhbase hbck -details:检查hbase所有表的一致性,并且输出详细报告。hbase hbck table1 table2:指定检查某些表,可以输入多个表,用空格隔开。HBCK - HBCK检查什么?(1)HBase Region一致性集群中所有region都被assign,而..转载 2020-06-12 16:08:49 · 680 阅读 · 0 评论 -
HBase为什么使用LSM树
一般的关系型数据库使用的都是B+树,而《HBase权威指南》中说到HBase使用的LSM树,所以本文就是想来了解一下使用LSM树的好处是啥。先来回顾下B+树:为什么不用二叉树、红黑树?因为二叉树结构中,每个节点至多会有两个子节点,当树的高度很高时,相应的磁盘访问次数就要增加,因为访问磁盘的速度是很慢的,从而导致查询效率低下。所以很自然的想法就是把树的高度降一降,所以B+树就出现了(平衡多路查找树,B+树是一种很适合外存的数据结构)。磁盘读取时的结构:磁盘由多个盘片组成,固定在一个...转载 2020-06-05 15:46:48 · 330 阅读 · 0 评论 -
HBase原理 –Region split细节梳理
Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。HBase系统中Region自动切分是如何实现的?这里面涉及很多知识点,比如Region切分的触发条件是什么?Region切分的切分点在哪里?如何切分才能最大的保证Region的可用性?如何做好切分过程中的异常处理?切分过程中要不要将数据移动?等等,这篇文章将会对这些细节进行基本的说明,一方面可以让大家对HBase中Region自动切分有更加深入的理解,另一方面如果想实现类似的功能也可以参考H转载 2020-06-04 13:48:04 · 2434 阅读 · 0 评论 -
hbase region in transition
Region-In-Trasition机制从字面意思来看,Region-In-Transition说的是Region变迁机制,实际上是指在一次特定操作行为中Region状态的变迁,那这里就涉及这么几个问题:Region存在多少种状态?HBase有哪些操作会触发Region状态变迁?一次正常操作过程中Region状态变迁的完整流程是怎么样的?如果Region状态在变迁的过程中出现异常又会怎么样?Region存在多少种状态?有哪些操作会触发状态变迁?HBase在RegionState类中定义了Reg转载 2020-06-03 18:36:37 · 1898 阅读 · 0 评论 -
HBase – 存储文件HFile结构解析
HFile是HBase存储数据的文件组织形式,参考BigTable的SSTable和Hadoop的TFile实现。从HBase开始到现在,HFile经历了三个版本,其中V2在0.92引入,V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多,HFile V2版本针对此进行了优化,HFile V3版本基本和V2版本相同,只是在cell层面添加了Tag数组的支持。鉴于此,本文主要针对V2版本进行分析,对V1和V3版本感兴趣的同学可以参考其他信息。HFile逻辑结构HFile V2的逻转载 2020-05-29 14:02:46 · 686 阅读 · 0 评论 -
Rowkey设计
本页目录Hotspotting 单调递增行键/时序数据 简化行和列 倒序时间戳 行键和列族 行键不可改 行键和region split的关系HBase的rowkey设计可以说是使用HBase最为重要的事情,直接影响到HBase的性能,常见的RowKey的设计问题及对应访问为:Hotspotting行由行键按字典顺序排序,这样的设计优化了扫描,允许存储相关的行或者那些将被一起读的邻近的行。然而,设计不好的行键是导致 hotspotting 的常见原因。当大量的客户端流量( traff转载 2020-05-28 12:45:22 · 297 阅读 · 0 评论 -
hbase原理之Hfile篇
HFile的内部结构?HBase读文件细粒度的过程?HBase随机读写快除了MemStore之外的原因?Hbase的数据以HFile的形式存在HDFS, 物理存储路径是:NameSpace->Table->Region->CF->HFile这一篇我们来说下这个HFile,把路径从HFile开始再补充一下HFile->Block->Ke...转载 2019-09-27 20:04:54 · 793 阅读 · 0 评论 -
hbase原理之bloomfilter篇
Bloom Filter 是什么?先简单的介绍下Bloom Filter(布隆过滤器)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。在计算机科学中,我们常常会碰到时间换空间或者空间换时间的情况,即为了达到某一个方面的最优而牺牲另...转载 2019-09-27 19:33:55 · 443 阅读 · 0 评论