Cloudera官方文档整理-优快云博客

本文链接：https://blog.youkuaiyun.com/u010585659/article/details/109152498

要评估集群的硬件和资源分配，需要分析要在集群上运行的工作负载类型，以及将用于运行这些工作负载的CDH组件。您还应该考虑要存储和处理的数据的大小、工作负载的频率、需要运行的并发作业的数量以及应用程序所需的速度。
在创建集群的体系结构时，需要在集群中的主机之间分配Cloudera Manager和CDH角色，以最大限度地利用资源。Cloudera提供了一些关于如何将角色分配给集群主机的指南。请参阅建议的群集主机和角色分布。将多个角色分配给主机时，将主机上每个角色的总资源需求（内存、CPU、磁盘）相加，以确定所需的硬件。
有关工作负载如何影响大小决定的信息，请参阅以下博客文章：如何：为新的Hadoop集群选择正确的硬件。
注意：所有关于核数量的建议都是指逻辑核，而不是物理核。

HDFS硬件要求：
NameNode堆内存：为每个额外的1000000块，快照和加密添加额外的1 GB可以增加所需的堆内存。
DataNode堆内存：增加内存以获得更高的副本计数或每个数据节点更高的块数。当增加内存时，Cloudera建议在数据节点上每100万个副本（超过400万个）增加1 GB的内存。例如，500万个副本需要5 GB的内存。最大可接受大小取决于平均块大小的大小。DN的可伸缩性限制主要是每个DN的副本数的函数，而不是存储的总字节数。也就是说，如果机器或机架发生故障，拥有超密集的DNs将影响恢复时间。Cloudera不支持每个数据节点超过100 TB。您可以使用12 x 8 TB主轴或24 x 4TB主轴。Cloudera不支持大于8 TB的驱动器。
警告：在直接连接的物理磁盘以外的存储平台上运行CDH可能会提供次优性能。Cloudera Enterprise和大多数Hadoop平台都经过优化，通过将工作分布到可以利用数据本地性和快速本地I/O的集群上来提供高性能。有关使用非本地存储的更多信息，请参阅Cloudera Enterprise存储设备接受标准指南。

调整NameNode堆内存大小：
每个工作负载都有一个唯一的字节分布配置文件。一些工作负载可以使用默认的JVM设置来收集堆内存和垃圾，但其他工作负载则需要调整。如果动态堆设置导致瓶颈，本主题将提供有关调整NameNode JVM大小的指导。
所有Hadoop进程都在Java虚拟机（JVM）上运行。JVM的数量取决于您的部署模式：
1.本地（或独立）模式-没有守护进程，所有内容都在一个JVM上运行。
2.伪分布式模式-每个守护进程（例如NameNode守护进程）在单个主机上运行在自己的JVM上。
3.分布式模式-每个守护进程在其自己的JVM上跨主机集群运行。
遗留NameNode配置是一个活动（和主）NameNode（用于整个命名空间）和一个辅助NameNode（用于检查点）（但不用于故障转移）。建议的高可用性配置将辅助NameNode替换为可防止单点故障的备用NameNode。每个NameNode都使用自己的JVM。

HADOOP_heap size为所有HADOOP项目服务器（如HDFS、YARN和MapReduce）设置JVM堆大小。HADOOP_HEAPSIZE是作为最大内存（Xmx）参数传递给JVM的整数。例如：
HADOOP_HEAPSIZE=1024
HADOOP_NAMENODE_OPTS特定于NAMENODE并设置所有必须指定的JVM标志。HADOOP_NAMENODE_OPTS覆盖NAMENODE的HADOOP_HEAPSIZE Xmx值。例如：
HADOOP_NAMENODE_OPTS=-Xms1024m-Xmx1024m-XX:+UseParNewGC-XX:+UseConcMarkSweepGC-XX:cmsinitiatiatingocultincyfraction=70-XX:+