hdfs的慢盘检测

HDFS慢盘检测原理、处理及原生问题

原创

于 2024-08-29 00:05:33 发布 · 1.1k 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hdfs #hadoop #大数据

这是我的第105篇原创文章

慢盘检测引入的背景

hdfs作为一个存储系统，势必会使用大量的磁盘。然而，在长期的使用过程中，磁盘也难免会磨损，出现损坏的磁道或扇区，导致磁盘读写变慢，IO操作耗时变长，从而引发业务的耗时增加（例如spark/flink计算任务的耗时增加等）。但是，要确认是磁盘变慢引起的业务耗时增加，这个排查过程是比较困难的，同时排查过程也是非常耗时耗力的。

在“降本增效”，运维便利性大环境的趋势下，hdfs引入了慢盘检测的特性。

慢盘识别的原理

所谓"慢盘"，只是一个相对的概念，也就是在同一个DN中，对某个磁盘IO操作的耗时相比其他磁盘更大，并且超过了配置的指定阈值，那么这个盘就被定义为"慢"盘。

了解了这个慢盘的定义，其实慢盘识别的大概逻辑基本上也就清楚了。既然是比较磁盘IO操作的耗时，自然而然首先是要记录IO的耗时。在Datanode里面，每次涉及磁盘IO操作的动作，都会统计其耗时，例如sync、flush、read、write等，这些信息最终都会被存储在metrics中。

有了IO操作耗时的统计之后，在独立的慢盘检测线程中，会定时获取所有磁盘的IO操作耗时信息，然后按类别分别计算出绝对中位差，根据中位差计算出上限值（包括与配置指定阈值的比较，两者取较大的值作为真正的上限值），磁盘IO操作耗时大于这个上限值的就是慢盘了。

注：任意一种操作类型的耗时大于该类型计算出的上限值，都会被认为是慢盘。

相关代码如下所示：

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。