28、运行 Hadoop 集群:全面指南

运行 Hadoop 集群:全面指南

1. EC2 实例与集群调优

EMR 集群的规模取决于数据集大小、文件和块的数量(决定分片数量)以及工作负载类型(需避免任务内存不足时将数据溢出到磁盘)。一般来说,理想的集群规模应能最大化并行性。每个实例的映射器(mappers)和归约器(reducers)数量以及每个 JVM 守护进程的堆大小,通常在集群配置时由 EMR 进行配置,并在可用资源发生变化时进行调整。

2. 集群调优的通用思路

除了针对 EMR 集群的特定调优建议外,在任何类型的集群上运行工作负载时,还需考虑以下通用思路:
- JVM 相关考虑
- 版本与模式 :应运行 64 位版本的 JVM 并使用服务器模式。虽然生成优化代码可能需要更长时间,但它采用更激进的策略,并会随时间重新优化代码,非常适合像 Hadoop 进程这样的长期运行服务。
- 内存分配 :要为 JVM 分配足够的内存,以防止过于频繁的垃圾回收(GC)暂停。目前,并发标记 - 清除收集器是 Hadoop 最经测试和推荐的选择。自 JDK7 引入以来,G1 收集器在许多其他工作负载中已成为首选的 GC 选项,因此值得关注其最佳实践的发展。这些选项可在 Cloudera Manager 每个服务的配置部分中作为自定义 Java 参数进行配置。
- 小文件问题
- 问题描述 :Hadoop 针对大文件和大分块大小进行了优化,但某些工作负载或数据源可能会将大量小文件推送到 HDFS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值