面试整理

最新推荐文章于 2025-06-06 10:11:58 发布

原创最新推荐文章于 2025-06-06 10:11:58 发布 · 201 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#面试

面试专栏收录该内容

8 篇文章

订阅专栏

本文介绍了不同规模的企业集群的节点数量范围及其对应的Zookeeper集群规模，并探讨了如何选择合适的硬件配置来支持集群运行，同时提到了在集群管理和维护过程中可能会遇到的问题。

集群简述
对于企业而言，一般的集群大小规模大概是如下映射关系：

集群大小

小：10~30节点

中：100~300节点

大：1000+节点

对应所需的zookeeper集群规模大概是

小：3台

中：5台

大：7台

有些同学会说，学这玩意啥用啊？我之前集群环境搭的可6了，咔咔咔一顿操作就OK了，老哥，你试想一下，2000台集群节点呢？按照我们之前的配置方式。。。。。。请开始你的表演。

那么，我们不得不使用CM或类似CM的工具来管理我们的集群。

官方地址：http://www.cloudera.com/

集群管理工具：Cloudera Manager

小企业：

可以选择IBM System服务器

DataNode 20~30台，不需要支持RAID冗余，内存16~24G，对内存要求不大，主要消耗磁盘，磁盘预算：

一般都是16~18TB

每天产生20~50万访问量

每条日志大小：100~500bytes

每次访问平均产生5条日志

一天的数据量：

20~50万访问量 * 5条 * 500字节 / 1024 / 1024 ≈ 1192.0928兆字节数据

一般需要存储1年的数据：

1~5G * 365 = 365~1825G * 3副本 = 1095~5475GB

磁盘一般预留20%，所以可用空间为80%，那么上面得到的数据除以80%即可。

NameNode 2台，内存预算：

1G内存 --- 存储100万个元数据---100万个文件---一般我们需要NameNode内存为128G

ResourceManager一般与NameNode部署在一起

NodeManager一般与DataNode部署在一起

Zookeeper 内存要求不高，对于磁盘的读写性能要求高，网络带宽要求非常高

HBase

HMaster 要求较高的网络带宽

HRegionServer 对内存要求高，分为如下两个开销：

memstore

blockcache