大数据集群巡检，最佳实践记录

最新推荐文章于 2025-11-08 14:33:05 发布

原创最新推荐文章于 2025-11-08 14:33:05 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hadoop #大数据

大数据专栏收录该内容

6 篇文章

订阅专栏

本文分享了在Cloudera大数据集群中遇到的问题及优化方案，包括HDFS小文件过多的清理与逻辑优化、DNS域名解析不全的解决、HDFS块计数报警阈值调整、Namenode堆内存增大、Hive分区过多的管理以及内存超配的避免。这些问题的解决有助于提升集群性能和稳定性。

公司使用的大数据集群是Cloudera，定期巡检，还是查出不少问题，后面进行优化。mark下供大家参考。发现主要的几个问题如下，

1. HDFS 小文件过多

小文件问题是目前HDFS上存在的最大问题。可以使用hadoop fs -count命令，简单统计下文件数量较多的目录。

小文件很多是临时文件，建议定期清理。并检查业务逻辑，主要是什么导致的小文件过多，看能否通过修改处理逻辑来避免。

2. DNS域名解析不全

很多新加的边缘节点，没有配置全部的host，导致集群内部解析不全。虽不影响程序运行，但是建议配置完全的host。

3. HDFS块计数报警过于频繁

块计数报警：默认hdfs的datanode的块超过50W就会触发对应块计数报警，基于集群的现状，建议将报警阈值调整到100W即可。

4. Namenode的堆内存设置过小

Namenode的堆内存设置过小，导致GC频繁，根据机器内存情况，建议适当增大至16G。

5. Hive中有些表的分区过多

Hive中有些表的分区过多，超过1000。分区过多会导致查询性能下降，建议避免过多分区。

6. 内存超配

集群内部有内存超配的现象，就是分配的内存超过最大内存的阈值。这样会导致资源竞争，或者任务误杀的情况发生。建议任务合理分配，不要超过最大内存。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。