Hadoop Rolling Upgrade经验总结

最新推荐文章于 2020-06-28 17:31:02 发布

Android路上的人

最新推荐文章于 2020-06-28 17:31:02 发布

阅读量1.4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Hadoop HDFS 文章标签： rolling upgrade 经验总结

本文链接：https://blog.youkuaiyun.com/Androidlushangderen/article/details/83472804

本文分享了一次Hadoop Rolling Upgrade的经验，包括兼容性测试、升级后遇到的性能不稳定问题，以及针对JVM层面和HDFS系统的调优措施。在JVM层面，调整了NN heap大小和增加了更细粒度的控制参数；在HDFS层面，进行了NN与JN分离、async editlog、公平RPC队列和Fsimage压缩等优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

从去年下半年开始，组内就开始着手准备升级公司内部的Hadoop集群，由于老版本实在已经落后社区很多了，也陆续碰到很多社区上已经被fix的bug。所以决定做一个大胆的举动：升级公司内部大集群版本。像这种比较aggressive的做法，很多人不是一开始能够接受，它存在不可控的风险。但所幸，在今年暑假，我们成功将内部版本升到了最近比较新的Hadoop版本。本文是对此过程的经验教训，相信会给很多想要做Hadoop Rolling Upgrade的同学有所帮助。

Rolling Upgrade兼容性测试

我们此次升级采用的不是停服务的方式，而是Rolling Upgrade的方式，也算是对我们团队的一个考验吧。所以在这里面，要做大量的兼容性测试。因为rolling的过程中，会存在新老版本（NN，DN，RM和NN）共存的情况。再加上同时在跑的YARN，情况组合起来还是挺多的。不过，测试下来，除了HDFS新版本特性异构存储（StorageType）出现明显不兼容错误，其它都正常。