提高HBase cleaner清理速度的方法

最新推荐文章于 2024-06-07 08:15:00 发布

原创最新推荐文章于 2024-06-07 08:15:00 发布 · 340 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hbase #数据库 #大数据

文章探讨了HBase中当表region数量庞大时，cleaner清理速度慢的问题。优化方法包括调整cleaner配置、隔离大表线程池、使用优先级队列和定制化cleaner策略，发现瓶颈主要在客户端和SnapshotHFileCleaner。

目前hbase cleaner是整集群全部分组的大轮询清理方式。

当表region数量过多，如上万，整体compact移入archive的文件速度>cleaner扫描目录和删除文件的速度时，archive内的文件会积压。

优化方法对比

修改cleaner配置，优化线程池配置，提高扫描目录的线程数量；（实验证明不是线程数越多效率越高，一定程度后增加线程数量反而会降低扫描目录的效率。）
隔离大表的cleaner线程池，避免大轮询的扫描删除等待：

社区的大轮询删除逻辑不适用与表之间写入量相差较大的场景。
cleaner线程池的队列使用优先级队列：保证大文件/目录可以优先处理；
batch调用listFileStatus接口，增加访问NN的效率；（实验证明batch操作不能提高客户端扫描的效率。）
按路径定制化cleaner，根据目录配置cleaner相关的配置。（实验证明cleaner瓶颈还是在客户端，且在SnapshotHFileCleaner中。）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yuantangyuan

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

hbase集群archive目录过大问题处理

weixin_42106137的博客

03-08

499

现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB。

HBase表数据清理

star_apple的博客

09-11

849

从2023_tables.dat文件中读取需要检查的表名，生成表的详情日志。遍历表详情日志，备份，停用，修改和开启表。3、修改完后，检查ttl。

参与评论您还未登录，请先登录后发表或查看评论

Hbase在hdfs上的archive目录占用空间过大

宝罗Paul 的博客

04-13

8418

hbase版本：1.1.2 hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息 alert: datanode_storage is triggered 告警信息表明某个或某些data node 的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdf...

hbase-cleanup:HBase清理

05-14

HBase清理执行 mvn全新安装使用参数java -jar target / hbase-cleanup.jar --ttl = 12 --uri = vin-mongo.poc-vin.cloud.edmunds.com：27017 --cleanTrash = true 。默认参数值：参数价值乌里 vin-mongo.poc-vin.cloud.edmunds.com:27017 ttl 12 cleanTrash 错误的

Hbase实战问题（一）：清理Hbase的hdfs上archive目录

在前进的路上

01-05

4732

目录一、背景二、问题三、分析并解决一、背景服务器的磁盘空间一直报警，查看hdfs已经占用了快满了，这时排查hdfs的各个目录占用空间，发现hbase占用很大 # 查看hdfs根目录各文件夹占用空间 hdfs dfs -du -h / 查看hbase文件下的各个文件夹占用空间 hdfs dfs -du -h /hbase 二、问题 hdfs dfs -du -h /hbase/archive 占用很大三、分析并解决 1、分析 ...

HBase的数据清理与垃圾回收实践

AI天才研究院

01-21

1516

1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可靠性、高性能和易用性，适用于大规模数据存储和实时数据处理。在HBase中，数据存储在Region Servers上，每个Region Server包含多个Region。...

Hbase-Cleaner:Hbase-Cleaner

06-08

按期间清理 Hbase 中的行跑步： node cleaner.js 配置： { "hbase_host": "u.hbase.host", "hbase_port": "8080", "params": { "startTime": "1388534400000", "endTime": "1498535400000", "batch": ...

Hbase-Cleaner工具：高效清理Hbase表中的过期数据

资源摘要信息:"Hbase-Cleaner:Hbase-Cleaner是一个用于清理Hbase表中数据的工具。它可以根据设定的时间周期，对Hbase中的行进行清理操作。具体操作步骤如下：首先，需要在命令行中运行node cleaner.js命令来启动清理...

hbase-site.xml.doc

10-29

* hbase.master.logcleaner.plugins：org.apache.hadoop.hbase.master.cleaner.TimeToLiveLogCleaner, org.apache.hadoop.hbase.master.cleaner.TimeToLiveProcedureWALCleaner，这个参数指定了预写日志的清理插件。...

参数hbase.master.logcleaner.plugins,hbase,master.cleaner.interval,hbase.master.cleaner.ttl分别表示

最新发布

07-25

- `hbase.master.cleaner.interval` 控制清理任务的执行频率。 - `hbase.master.cleaner.ttl` 设定日志文件的最大存活时间。这些参数共同作用于 HBase 的日志管理与清理机制，确保系统的高效运行与资源合理利用。

数据删除与清理: 如何删除和清理HBase数据

AI天才研究院

01-18

1360

1.背景介绍 HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与Hadoop和HDFS集成，提供低延迟的随机读写访问。HBase数据的删除和清理是一项重要的维护任务，可以有效地回收存储空间，提高系统性能。在本文中，我们将讨论HBase数据删除与清理的核心概念、算法原理、具体操作步骤和数学模型公式，以及一些实际...

解决执行hbase clean 和hbase zkcli 出现的找不到类

枣泥馅的博客

04-22

1091

[root@bigdata111 apache-phoenix-5.0.0-HBase-2.0-bin]# hbase clean --cleanAll 错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty 错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty 错误:...

HBase HFile和Hlog的cleaner执行流程和配置项

Brianf

06-09

1397

HFile和Hlog是HBase中两大文件存在格式，HFile用于存储数据，Hlog用于保证数据写入HFile中。两者都有自己的cleaner逻辑。HFileCleaner和LogCleaner都是继承CleanerChore类 public class HFileCleaner extends CleanerChore public class LogCleaner extends Cl...

hbase空间清理

量子人生

02-11

9197

hbase空间清理hbase由于未设置TTL，导致磁盘空间占满，需要删除数据，或设置TTL。查看磁盘空间占用情况：$ df -m查看磁盘空间占用情况：$ du -sh *最终发现是hadoop文件夹占用最高，确切说是./hadoop/tmp/dfs/data文件夹占空间最大。根据我们自己的业务情况，容易判断出是hbase不断写入导致的问题，通过查看hdfs得到验证：$ ./hadoop fs

【大数据入门核心技术-HBase】（十一）HBase手动清除表相关信息

12-16

1038

Phoenix 搭建与报错处理,hbase与phoenix表与表进行关联

Mogeko1的博客

11-04

1804

Phoenix 搭建与报错处理,hbase与phoenix表与表进行关联 Error: ERROR 103 (08004): Unable to establish connection. (state=08004,code=103) Error: SYSTEM.CATALOG (state=08000,code=101)

大语言模型的底层原理，ChatGPT，文心一言等人工智能体是如何产生的？本文将详细讲解

wandertp的博客

06-07

2329

本文讲解了大模型的底层原理，从数据准备到词元化等。提供了具体的代码示例加深理解，如果你想知道人工智能体，例如gpt，文心一言等，是如何产生的，如何训练出来的，可以看看这篇文章。

10大HBase常见运维工具整理

jin6872115的博客

08-17

1797

hbase目录结构及元数据修复

MY BLOG

04-16

1732

最近知识星球有人问浪尖，自己的hbase集群元数据丢失了，但是数据还在，是否能够修复，其实这种情况下利用数据的hfile去修复元数据很常见，也有很多时候我们是生成hfile加载进hbase。那么他又问了，假设数据也丢失了，或者数据存在大量坏块，是否能进行修复。首先要先修复坏块，一本有副本，假设不是所有数据副本一起损坏，通过清除坏块，修复副本，然后再逆向修复hbase的元数据也是可行的。但是如果清除坏块之后数据丢了，那也可以修复hbase元数据，只是丢了数据而已。 HBase中的元数据表中记录了Regi