通过本文,你将学到包括但不限于如下知识:
- 解决HDFS线上问题的一般流程
- 一个完整的HDFS线上故障问题解决case:扩容集群为何会导致集群性能严重下滑?以及探讨给出优化方案。
- Linux网卡信息相关命令、Linux硬盘监控和分析工具smartctl等
本文将以一个生产环境下的线上告警为线索,一步一步抽丝剥茧找到引发告警的原因,并solve it!绝对让你有所收获!
一、告警现象
HDFS告警群不断出现DataNode的日志文件中Warn级别的日志数过多的告警。同时有业务方开始反馈集群的HDFS变得很慢,Flink出现checkpoint超时,作业也提交不上去了。告警如下图所示:
注:关于warn级别日志异常增多的告警,可以通过监控DataNode节点的jmx的LogWarn这个指标,设置一个增长速率阈值,如果增长率超过阈值则告警。如下图所示: