28、运行 Hadoop 集群的全面指南

Hadoop集群运行的全面指南与实践

运行 Hadoop 集群的全面指南

1. 集群规模与调优

EMR 集群的规模取决于数据集大小、文件和块的数量(决定分割数)以及工作负载类型。一般来说,应尽量避免任务内存不足时将数据溢出到磁盘。理想的集群规模是能最大化并行性的规模。每个实例的映射器和归约器数量以及每个 JVM 守护进程的堆大小,通常在集群配置时由 EMR 进行配置,并在可用资源发生变化时进行调整。

除了针对 EMR 集群的特定调优,在任何类型的集群上运行工作负载时,还需考虑以下通用要点:
- JVM 考虑因素
- 应运行 64 位版本的 JVM 并使用服务器模式。虽然生成优化代码的时间可能较长,但它采用更激进的策略,并会随着时间重新优化代码,更适合像 Hadoop 进程这样的长期运行服务。
- 要为 JVM 分配足够的内存,以防止过于频繁的垃圾回收(GC)暂停。目前,并发标记 - 清除收集器是 Hadoop 最经过测试和推荐的收集器。自 JDK7 引入以来,G1 收集器在许多其他工作负载中已成为首选的 GC 选项,因此值得关注其最佳实践的发展。这些选项可以在 Cloudera Manager 中每个服务的配置部分作为自定义 Java 参数进行配置。

  • 小文件问题
    Hadoop 针对大文件和大文件块进行了优化,但有时特定的工作负载或数据源会将许多小文件推送到 HDFS。这可能会导致效率低下,因为每个处理块的任务在完成前只能读取少量数据。此外,大量小文件会消耗更多的 NameNode 内存,因为 NameNode 需要在内存中保存文件到块的映射以及每个文件和块的元数据。如果文件和块的数

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值