数据处理与存储格式优化指南
1. YARN 资源调优参数
在数据处理中,YARN(Yet Another Resource Negotiator)的参数调优至关重要。以下是一些可调整的 YARN 属性:
- yarn.scheduler.minimum-allocation-mb
:YARN 允许运行作业的容器最小大小,默认值为 1GB。
- yarn.scheduler.maximum-allocation-mb
:YARN 允许运行作业的容器最大大小,默认值为 8192MB。
- yarn.nodemanager.resource.memory-mb
:工作节点上容器的总内存量,该值应为(总内存) - (操作系统、Hadoop 守护进程和其他服务的内存分配)。
- yarn.nodemanager.vmem-pmem-ratio
:定义虚拟内存与可用物理内存的比率,默认值 2.1 表示虚拟内存将是物理内存的两倍。
- yarn.app.mapreduce.am.resource.mb
:分配给 ApplicationMaster 的内存。
- yarn.app.mapreduce.am.command-opts
:分配给 ApplicationMaster 的堆大小,默认值为 1GB。
- yarn.nodemanager.resource.cpu-vcores
:节点管理器可分配给容器的核心数,该值应为(节点上的核心总数) - (分配给