hbase面试题整理

一. 简单介绍下Hbase

(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。
(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。
(3) Hbase为null的记录不会被存储.
(4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本.
(5) hbase是主从架构。hmaster作为主节点,hregionserver作为从节点。

 

二. 描述下HBase 的特点

1)大:一个表可以有数十亿行,上百万列;
2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一
张表中不同的行可以有截然不同的列;
3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;
4)稀疏:空(null)列并不占用存储空间,表可以设计的非常稀疏;
5)数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元
格插入时的时间戳;
6)数据类型单一:Hbase 中的数据都是字符串,没有类型。

 

三.叙述HBase 和 Hive 的区别

Hive 和 Hbase 是两种基于 Hadoop 的不同技术--Hive 是一种类 SQL 的引擎,并且运行MapReduce 任务,Hbase 是一种在 Hadoop 之上的 NoSQL 的 Key/vale 数据库。当然,这两种工具是可以同时使用的。就像用 Google 来搜索,用 FaceBook 进行社交一样,Hive 可以用来进行统计查询,HBase 可以用来进行实时查询,数据也可以从 Hive 写到 Hbase,设置再从 Hbase 写回 Hive。 

四.HBase 适用情景

① 半结构化或非结构化数据

② 记录非常稀疏

③ 多版本数据

④ 超大数据量

 

五. 描述 HBase 的 rowKey 的设计原则

① Rowkey 长度原则
Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在 10~100 个字节,不过建议是越短越好,不要超过 16 个字节。
原因如下:
(1)数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 Rowkey 过长比如 100个字节,1000 万列数据光 Rowkey 就要占用 100*1000 万=10 亿个字节,将近 1G 数据,这会极大影响 HFile 的存储效率;
(2)MemStore 将缓存部分数据到内存,如果 Rowkey 字段过长内存的有效利用率会降低,系统将无法缓存更多的数据,这会降低检索效率。因此 Rowkey 的字节长度越短越好。
(3)目前操作系统是都是 64 位系统,内存 8 字节对齐。控制在 16 个字节,8 字节
的整数倍利用操作系统的最佳特性。

② Rowkey 散列原则
如果Rowkey 是按时间戳的方式递增,不要将时间放在二进制码的前面,建议将Rowkey的高位作为散列字段,由程序循环生成,低位放时间字段,这样将提高数据均衡分布在每个Regionserver 实现负载均衡的几率。如果没有散列字段,首字段直接是时间信息将产生所有新数据都在一个 RegionServer 上堆积的热点现象,这样在做数据检索的时候负载将会集中在个别 RegionServer,降低查询效率。
③ Rowkey 唯一原则
必须在设计上保证其唯一性。 
 

六.描述 HBase 中 scan 和 get 的功能以及实现的异同

 HBase 的查询实现只提供两种方式:
1)按指定 RowKey 获取唯一一条记录,get 方法(org.apache.hadoop.hbase.client.Get)Get 的方法处理分两种 : 设置了 ClosestRowBefore 和没有设置 ClosestRowBefore 的rowlock。主要是用来保证行的事务性,即每个 get 是以一个 row 来标记的。一个 row 中可以有很多 family 和 column。
2)按指定的条件获取一批记录,scan 方法(org.apache.Hadoop.hbase.client.Scan)实现条件查询功能使用的就是 scan 方式。
 

七.请详细描述 HBase 中一个 cell 的结构

HBase 中通过 row 和 columns 确定的为一个存贮单元称为 cell。
Cell:由{row key, column(=<family> + <label>), version}唯一确定的单元。cell 中的数据是没有类型的,全部是字节码形式存贮。 

八. 简述 HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别,有哪些相关配置参数?

在 hbase 中每当有 memstore 数据 flush 到磁盘之后,就形成一个 storefile,当 storeFile的数量达到一定程度后,就需要将 storefile 文件来进行 compaction 操作。
Compact 的作用:
① 合并文件
② 清除过期,多余版本的数据
③ 提高读写数据的效率

HBase 中实现了两种 compaction 的方式:minor and major. 这两种 compaction 方式的
区别是:
1、Minor 操作只用来做部分文件的合并操作以及包括 minVersion=0 并且设置 ttl 的过
期版本清理,不做任何删除数据、多版本数据的清理工作。
2、Major 操作是对 Region 下的 HStore 下的所有 StoreFile 执行合并操作,最终的结果
是整理合并出一个文件。 

九.HBase 优化方式

(1)高可用
在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。 

(2)预分区
每一个 region 维护着 startRow 与 endRowKey,如果加入的数据符合某个 region 维护的rowKey 范围,则该数据交给这个 region 维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高 HBase 性能 .

(3)RowKey 设计
一条数据的唯一标识就是 rowkey,那么这条数据存储于哪个分区,取决于 rowkey 处于哪个一个预分区的区间内,设计 rowkey 的主要目的 ,就是让数据均匀的分布于所有的 region中,在一定程度上防止数据倾斜。

(4)7.4 内存优化
HBase 操作过程中需要大量的内存开销,毕竟 Table 是可以缓存在内存中的,一般会分配整个可用内存的 70%给 HBase 的 Java 堆。但是不建议分配非常大的堆内存,因为 GC 过程持续太久会导致 RegionServer 处于长期不可用状态,一般 16~48G 内存就可以了,如果因为框架占用内存过高导致系统内存不足,框架一样会被系统服务拖死。

(5)基础优化 

十.Region 如何预建分区?

预分区的目的主要是在创建表的时候指定分区数,提前规划表有多个分区,以及每个分区的区间范围,这样在存储的时候 rowkey 按照分区的区间存储,可以避免 region 热点问题。
通常有两种方案:
方案 1:shell 方法
create 'tb_splits', {NAME => 'cf',VERSIONS=> 3},{SPLITS => ['10','20','30']}
方案 2: JAVA 程序控制
· 取样,先随机生成一定数量的 rowkey,将取样数据按升序排序放到一个集合里;
· 根据预分区的 region 个数,对整个集合平均分割,即是相关的 splitKeys;
· HBaseAdmin.createTable(HTableDescriptor tableDescriptor,byte[][]splitkeys)可以指定预分区的 splitKey,即是指定 region 间的 rowkey 临界值。 

十一. HRegionServer 宕机如何处理?

1)ZooKeeper 会监控 HRegionServer 的上下线情况,当 ZK 发现某个 HRegionServer 宕机之后会通知 HMaster 进行失效备援;
2)该 HRegionServer 会停止对外提供服务,就是它所负责的 region 暂时停止对外提供服务;
3)HMaster 会将该 HRegionServer 所负责的 region 转移到其他 HRegionServer 上,并且会对 HRegionServer 上存在 memstore 中还未持久化到磁盘中的数据进行恢复;
4)这个恢复的工作是由 WAL 重播来完成,这个过程如下:
· wal 实际上就是一个文件,存在/hbase/WAL/对应 RegionServer 路径下。
· 宕机发生时,读取该 RegionServer 所对应的路径下的 wal 文件,然后根据不同的region 切分成不同的临时文件 recover.edits。
· 当 region 被分配到新的 RegionServer 中,RegionServer 读取 region 时会进行是否存在 recover.edits,如果有则进行恢复。 

11.HBase 读写流程?

读:
① HRegionServer 保存着 meta 表以及表数据,要访问表数据,首先 Client 先去访问zookeeper,从 zookeeper 里面获取 meta 表所在的位置信息,即找到这个 meta 表在哪个HRegionServer 上保存着。
② 接着 Client 通过刚才获取到的 HRegionServer 的 IP 来访问 Meta 表所在的HRegionServer,从而读取到 Meta,进而获取到 Meta 表中存放的元数据。
③ Client 通过元数据中存储的信息,访问对应的 HRegionServer,然后扫描所在HRegionServer 的 Memstore 和 Storefile 来查询数据。
④ 最后 HRegionServer 把查询到的数据响应给 Client。


写:
① Client 先访问 zookeeper,找到 Meta 表,并获取 Meta 表元数据。
② 确定当前将要写入的数据所对应的 HRegion 和 HRegionServer 服务器。
③ Client 向该 HRegionServer 服务器发起写入数据请求,然后 HRegionServer 收到请求
并响应。 

④ Client 先把数据写入到 HLog,以防止数据丢失。
⑤ 然后将数据写入到 Memstore。
⑥ 如果 HLog 和 Memstore 均写入成功,则这条数据写入成功
⑦ 如果 Memstore 达到阈值,会把 Memstore 中的数据 flush 到 Storefile 中。
⑧ 当 Storefile 越来越多,会触发 Compact 合并操作,把过多的 Storefile 合并成一个大
的 Storefile。
⑨ 当 Storefile 越来越大,Region 也会越来越大,达到阈值后,会触发 Split 操作,将
Region 一分为二。
 

12.HBase 内部机制是什么?

Hbase 是一个能适应联机业务的数据库系统物理存储:hbase 的持久化数据是将数据存储在 HDFS 上。
存储管理:一个表是划分为很多 region 的,这些 region 分布式地存放在很多 regionserver上 Region 内部还可以划分为 store,store 内部有 memstore 和 storefile。
版本管理:hbase 中的数据更新本质上是不断追加新的版本,通过 compact 操作来做版本间的文件合并 Region 的 split。
集群管理:ZooKeeper + HMaster + HRegionServer。

13. HBase 在进行模型设计时重点在什么地方?一张表中定义多少个 Column Family 最合适?为什么? 

Column Family 的个数具体看表的数据,一般来说划分标准是根据数据访问频度,如一张表里有些列访问相对频繁,而另一些列访问很少,这时可以把这张表划分成两个列族,分开存储,提高访问效率。 

14.如何提高 HBase 客户端的读写性能?请举例说明

1 开启 bloomfilter 过滤器,开启 bloomfilter 比没开启要快 3、4 倍
2 Hbase 对于内存有特别的需求,在硬件允许的情况下配足够多的内存给它
3 通过修改 hbase-env.sh 中的
export HBASE_HEAPSIZE=3000 #这里默认为 1000m
4 增大 RPC 数量
通过修改 hbase-site.xml 中的 hbase.regionserver.handler.count 属性,可以适当的放大RPC 数量,默认值为 10 有点小。 

15.直接将时间戳作为行健,在写入单个 region 时候会发生热点问题,为什么呢?

region 中的 rowkey 是有序存储,若时间比较集中。就会存储到一个 region 中,这样一个 region 的数据变多,其它的 region 数据很少,加载数据就会很慢,直到 region 分裂,此问题才会得到缓解。 

16.请描述如何解决 HBase 中 region 太小和 region 太大带来的冲突? 

Region 过大会发生多次compaction,将数据读一遍并重写一遍到 hdfs 上,占用io,region过小会造成多次 split,region 会下线,影响访问服务,最佳的解决方法是调整 hbase.hregion.max.filesize 为 256m。 

17. 解释一下布隆过滤器原理;

 

 

 

<think>好的,用户需要HBase相关的面试题整理或者常见问题及答案。我先回忆一下之前提供的引用内容,看看有哪些信息可以利用。引用[1]提到HBase的表结构和动态列的特性,这和关系型数据库的区别可能是一个常见的面试点。引用[2]介绍了HBase的基本概念,包括它是基于Hadoop的列式分布式数据库,以及优缺点。引用[3]提到了HBase的高可用性,特别是HMaster的作用和故障后的影响。引用[4]看起来是一个更全面的面试题资源,但图片无法访问,可能需要依赖其他引用内容。 接下来,我需要整理常见的HBase面试题。通常,面试题会涵盖基本概念、架构、数据模型、读写流程、优缺点、应用场景等。根据引用内容,可以确定几个方向: 1. HBase和关系型数据库的区别,引用[1]提到动态列和列族设计,这点很重要。 2. HBase的优缺点,引用[2]有相关信息。 3. HBase的高可用机制,引用[3]提到HMaster的高可用配置。 4. 数据存储结构,比如列族、行键设计。 5. 读写流程和底层存储,比如HFile、MemStore、HLog。 6. 与Hadoop生态系统的集成,比如HDFS的作用。 7. 性能优化,如预分区、布隆过滤器等。 可能还需要补充一些其他常见问题,比如Region的管理、Compaction过程、RowKey设计原则等。但现有的引用中没有提到这些,是否需要加入?用户可能希望答案基于提供的引用,但可能也需要补充通用知识。需要注意引用[4]虽然标题提到最全面,但内容不可见,所以可能需要忽略。 需要确保每个问题都有对应的引用支持,或者属于常识性问题。例如,HBase的架构组件(HMaster、RegionServer)在引用[3]和[2]中都有提及。数据模型中的列族在引用[1]中说明。读写流程中的MemStore和HFile可能属于通用知识,但需要确认是否有引用支持。如果没有,可能需要作为补充,但用户要求尽量保证真实可靠,所以最好基于引用内容。 另外,用户提供的引用中有关于HBase的高可用性配置,可以形成一个问题。优缺点部分引用[2]明确提到,可以展开。应用场景可能在引用[2]中提到“应对字段变更的场景”,所以可以强调模式灵活性的优势。 整理问题的时候,要分门别类,结构清晰。可能分为基本概念、架构、数据模型、读写流程、优缺点、应用场景、优化等部分。每个问题下给出简要答案,并标注引用来源。 需要检查是否有重复的问题,比如HBase和关系型数据库的区别与HBase的特点可能有重叠。需要合并或分拆。同时,答案需要简洁明了,符合面试题的风格,点到关键点即可。 最后,生成的相关问题可能需要用户进一步了解,比如如何设计RowKey,或者Compaction的作用,但引用中没有相关信息,可能需要避免。不过用户可能希望问题涵盖更多方面,所以可能需要适当加入通用问题,但需注明来源是否来自引用。例如,关于LSM树的结构可能属于通用知识,但引用中没有提到,所以可能需要排除,或者简要提及。 综上,整理出十个左右的问题,涵盖基本概念、架构、数据模型、优缺点、高可用性、应用场景等,每个问题结合引用内容给出答案,并正确标注引用来源。</think>以下是HBase常见面试题及参考答案整理,结合技术细节与面试高频考点: --- ### **一、HBase基础概念** 1. **HBase与关系型数据库的核心区别是什么?** HBase采用列式存储,定义表时只需声明列族,无需预先指定具体列,支持动态扩展字段[^1]。数据按行键(RowKey)排序存储,适合海量稀疏数据。而关系型数据库基于行存储,需要固定表结构,适合事务性操作。 2. **HBase的优缺点有哪些?** - 优点:高扩展性(支持廉价服务器集群)、高写入吞吐、灵活的模式设计(动态列)、自动分片与负载均衡[^2]。 - 缺点:不支持复杂事务(仅单行事务)、查询功能有限(无SQL)、随机读性能依赖缓存[^2]。 --- ### **二、HBase架构与组件** 3. **HBase的核心组件及其作用?** - **HMaster**:负责元数据管理、Region分配与负载均衡、集群监控[^3]。 - **RegionServer**:管理Region的读写请求、MemStore刷新、HFile合并。 - **ZooKeeper**:维护集群状态(如HMaster选举)、RegionServer存活检测[^3]。 4. **如何实现HMaster的高可用?** 通过配置多个HMaster节点,利用ZooKeeper进行主节点选举。当活跃HMaster故障时,备用节点迅速接管,避免单点故障[^3]。 --- ### **三、数据模型与存储** 5. **解释HBase的“列族”(Column Family)设计** 列族是物理存储单元,同一列族的数据在HDFS上存储在同一个目录下。每个列族可包含多个动态列,数据按列族分组存储,优化读写效率[^1]。 6. **HBase的存储结构层次(从大到小)?** Table → Region(按RowKey范围划分) → Store(对应一个列族) → MemStore(内存写缓存) + HFile(磁盘存储文件)。 --- ### **四、读写流程** 7. **写入数据的流程是什么?** 1. 客户端向ZooKeeper获取目标RegionServer。 2. 数据先写入WAL(Write-Ahead Log)确保持久化。 3. 数据存入MemStore,内存满后异步刷写到HFile[^2]。 8. **读取数据时如何优化性能?** - 利用BlockCache缓存频繁访问的数据块。 - 布隆过滤器(Bloom Filter)快速判断某行是否在HFile中,减少磁盘IO[^2]。 --- ### **五、应用场景与优化** 9. **HBase适合哪些应用场景?** - 海量数据存储(如日志、时序数据)。 - 需要灵活 schema 的场景(如用户画像动态字段)[^1]。 - 高写入低延迟需求(如实时计数器)。 10. **如何避免Region热点问题?** - 设计散列化或加盐的RowKey(如 `MD5(user_id) + timestamp`)。 - 预分区(Pre-splitting)预先分配Region,均衡负载。 --- ### **六、进阶问题** 11. **HBase如何与HDFS协作?** HFile直接存储在HDFS上,依赖HDFS的多副本机制保证数据可靠性。RegionServer与HDFS DataNode协同运行,实现本地化数据访问[^2]。 12. **Compaction的作用是什么?** 合并小文件(HFile),减少查询时的IO开销,并清理过期数据(如标记删除的记录)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值