Cloudera官方文档整理

要评估集群的硬件和资源分配,需要分析要在集群上运行的工作负载类型,以及将用于运行这些工作负载的CDH组件。您还应该考虑要存储和处理的数据的大小、工作负载的频率、需要运行的并发作业的数量以及应用程序所需的速度。
在创建集群的体系结构时,需要在集群中的主机之间分配Cloudera Manager和CDH角色,以最大限度地利用资源。Cloudera提供了一些关于如何将角色分配给集群主机的指南。请参阅建议的群集主机和角色分布。将多个角色分配给主机时,将主机上每个角色的总资源需求(内存、CPU、磁盘)相加,以确定所需的硬件。
有关工作负载如何影响大小决定的信息,请参阅以下博客文章:如何:为新的Hadoop集群选择正确的硬件。
注意:所有关于核数量的建议都是指逻辑核,而不是物理核。


HDFS硬件要求:
NameNode堆内存:为每个额外的1000000块,快照和加密添加额外的1 GB可以增加所需的堆内存。
DataNode堆内存:增加内存以获得更高的副本计数或每个数据节点更高的块数。当增加内存时,Cloudera建议在数据节点上每100万个副本(超过400万个)增加1 GB的内存。例如,500万个副本需要5 GB的内存。最大可接受大小取决于平均块大小的大小。DN的可伸缩性限制主要是每个DN的副本数的函数,而不是存储的总字节数。也就是说,如果机器或机架发生故障,拥有超密集的DNs将影响恢复时间。Cloudera不支持每个数据节点超过100 TB。您可以使用12 x 8 TB主轴或24 x 4TB主轴。Cloudera不支持大于8 TB的驱动器。
警告:在直接连接的物理磁盘以外的存储平台上运行CDH可能会提供次优性能。Cloudera Enterprise和大多数Hadoop平台都经过优化,通过将工作分布到可以利用数据本地性和快速本地I/O的集群上来提供高性能。有关使用非本地存储的更多信息,请参阅Cloudera Enterprise存储设备接受标准指南。


调整NameNode堆内存大小:
每个工作负载都有一个唯一的字节分布配置文件。一些工作负载可以使用默认的JVM设置来收集堆内存和垃圾,但其他工作负载则需要调整。如果动态堆设置导致瓶颈,本主题将提供有关调整NameNode JVM大小的指导。
所有Hadoop进程都在Java虚拟机(JVM)上运行。JVM的数量取决于您的部署模式:
1.本地(或独立)模式-没有守护进程,所有内容都在一个JVM上运行。
2.伪分布式模式-每个守护进程(例如NameNode守护进程)在单个主机上运行在自己的JVM上。
3.分布式模式-每个守护进程在其自己的JVM上跨主机集群运行。
遗留NameNode配置是一个活动(和主)NameNode(用于整个命名空间)和一个辅助NameNode(用于检查点)(但不用于故障转移)。建议的高可用性配置将辅助NameNode替换为可防止单点故障的备用NameNode。每个NameNode都使用自己的JVM。

HADOOP_heap size为所有HADOOP项目服务器(如HDFS、YARN和MapReduce)设置JVM堆大小。HADOOP_HEAPSIZE是作为最大内存(Xmx)参数传递给JVM的整数。例如:
HADOOP_HEAPSIZE=1024
HADOOP_NAMENODE_OPTS特定于NAMENODE并设置所有必须指定的JVM标志。HADOOP_NAMENODE_OPTS覆盖NAMENODE的HADOOP_HEAPSIZE Xmx值。例如:
HADOOP_NAMENODE_OPTS=-Xms1024m-Xmx1024m-XX:+UseParNewGC-XX:+UseConcMarkSweepGC-XX:cmsinitiatiatingocultincyfraction=70-XX:+

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值