详解HBase Compaction

本文详细介绍了HBase中的Compaction机制,包括其目的、类型、配置及流程等内容。Compaction旨在通过合并多个HFile来减少文件数量,提高系统性能,并清除无效数据。

HBase 中有一种数据行为叫Compaction,从字面的意思就是数据文件合并,本文对Compaction的目的,控制方法,具体实施过程等几个方面对HBase 的 Compaction 行为进行了介绍。

1. Compaction是什么

合并多个HFile生成一个HFile
Compaction有两种:
Minor Compaction(部分文件合并)
Major Compaction(完整文件合并)

2.为什么要Compaction?

减少HFile文件的个数
提高性能
清除过期和删除数据

3.配置

修改Hbase配置文件可以控制compaction行为

键值 默认值 意义
hbase.regionserver.thread.splitcompactcheckfrequency 20s compaction检查周期(0.94.0已经没有这个参数了)
hbase.hstore.compactionThreshold 3 最小minor compaction的文件个数
hbase.hstore.blockingStoreFiles 7 Block flush操作的Store个数
hbase.hstore.blockingWaitTime 90s Block flush操作的等待时间
hbase.hstore.compaction.max 10 最大minor compaction的文件个数
hbase.hregion.majorcompaction 1 day Major compaction的周期

4.流程

Compaction是一个Async的过程,可以由客户端发起,也可能是服务器端自己检查发起compaction.

1)客户端发起

Client端:

HBaseAdmin::compaction or majorCompaction
==>HMaster modifyTable
==>RegionManager::startAction
==> put into map regionsToCompact and regionsToMajorCompact
==>Send to HRegionServer

Server端:

HRegionServer::run forward the request to CompactionSplitThread
==>CompactionSplitThread handle the request from queue
==>HRegion::compactStores
==>Do compaction preparations, create the compaction folder
==>HStore::compaction
==>Create a HFile.Writer for writing
==>Create a StoreScanner for major compaction
==>Create a MinorCompactionStoreScanner for minor compaction
==>Scan the scanner and write to the hfile
==>Complete the compaction,delete old files and move the file to store folder

2) Server检查发起

Major compaction:
Major compaction由region server定期检查
==>HRegionServer::MajorCompactionChecker
==>Send the request to CompactionSplitThread

Minor compaction:
Minor compaction由Memstore flush到HDFS前检查
==>MemStoreFlusher::flushRegion
==>Send the request to CompactionSplitThread

 

原文链接:http://www.spnguru.com/2010/08/%E8%AF%A6%E8%A7%A3hbase-compaction/

<think>好的,我现在需要帮助用户了解HBase集群中Major Compaction的配置与优化。首先,我得先理解Major Compaction的基本概念它在HBase中的作用。根据用户提供的引用内容,Major Compaction是将一个Region下的所有StoreFile合并成一个文件,同时清理已删除的行过期版本。这对性能数据管理很重要,但也会带来较大的资源消耗,所以需要合理配置。 接下来,用户想了解配置优化的方法。我需要从引用中提取相关的配置参数优化建议。引用2提到Major Compaction的触发条件,比如用户强制执行、长时间未执行或存在reference文件。引用5建议将hbase.hregion.majorcompaction设为0来禁用自动触发,改为手动执行。这可能是一个优化点,避免高峰期的资源争用。 然后,引用4提到了计划外Major Compaction的原因避免方法,比如调整throttle参数max.size参数。需要解释这些参数的作用,比如throttle控制合并的吞吐量,max.size决定参与合并的文件大小上限。调整这些可以限制计划外的合并操作。 引用3提到了compaction相关的配置参数,如hbase.hstore.compaction.ratio策略选择。可能需要介绍不同的策略,如RatioBasedCompactionPolicy,以及如何调整比率参数来优化合并频率文件选择。 另外,用户可能需要知道如何手动触发Major Compaction,以及监控管理的方法。比如使用HBase Shell命令或API手动执行,配合监控工具观察影响。引用5建议在夜间低负载时执行,这也是优化的一部分。 还需要考虑调优的综合策略,比如分层存储、压缩算法、Region大小调整等,这些可能不在提供的引用中,但根据HBase的知识,可以适当补充,但需要确保准确。比如使用Snappy或LZO压缩减少IO,合理设置Region大小避免过多StoreFile。 最后,整理这些点,分步骤回答,确保结构清晰,每个配置参数优化方法都解释清楚,并引用对应的引用来源。同时生成相关问题,帮助用户进一步学习,如触发条件、手动触发命令、避免计划外合并的方法等。</think>### HBase集群Major Compaction配置与优化 #### 1. **Major Compaction的核心作用** - **数据清理**:合并Region下所有StoreFile为单个文件,删除标记为删除的行过期版本数据,释放存储空间[^5]。 - **性能影响**:合并过程会占用大量磁盘I/O网络带宽,可能导致集群短暂性能下降,需合理规划执行时间。 #### 2. **配置参数详解** - **禁用自动触发** 默认Major Compaction周期由`hbase.hregion.majorcompaction`控制(默认值604800000毫秒,约7天)。建议设置为`0`以禁用自动触发,改为手动控制: ```xml <property> <name>hbase.hregion.majorcompaction</name> <value>0</value> </property> ``` - **限制合并文件范围** - `hbase.hstore.compaction.max.size`:仅合并小于该值的文件(默认`Long.MAX_VALUE`),调小可减少大文件参与合并的概率[^4]。 - `hbase.regionserver.thread.compaction.throttle`:控制合并操作的吞吐量阈值(默认2.5GB),调大可降低合并频率[^4]。 - **合并策略调整** 使用`RatioBasedCompactionPolicy`时,调整合并文件选择比例: ```xml <property> <name>hbase.hstore.compaction.ratio</name> <value>1.2</value> </property> ``` 更高比例会选择更多小文件合并[^3]。 #### 3. **优化实践** - **手动触发时机** 通过HBase Shell在低负载时段手动执行: ```bash hbase> major_compact 'table_name' ``` 或使用Admin API编程触发。 - **监控与资源控制** - 监控HBase Master日志及RegionServer资源使用情况。 - 结合HDFS监控工具(如Ganglia)观察磁盘I/O带宽波动。 - **分层存储策略** 对冷热数据使用不同的压缩算法(如冷数据用ZStandard,热数据用Snappy),降低合并开销[^3]。 #### 4. **问题排查** - **计划外合并的根源** 检查是否因StoreFile中存在`reference`文件(Region分裂残留)触发了强制合并[^2]。 - **合并阻塞处理** 若合并耗时过长,需检查RegionServer日志,排查是否因大文件或网络延迟导致。 ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值