Hadoop/Yarn/MapReduce内存分配(配置)方案

本书由博主精心创作,详细介绍了大数据平台的架构与原型实现,特别关注数据中台建设实战。通过Horntonworks推荐配置,提供Hadoop集群上各组件的内存分配方案,旨在帮助读者构建高效的数据处理系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

推荐:博主历时三年倾注大量心血创作的大数据平台架构与原型实现:数据中台建设实战一书已由知名IT图书品牌电子工业出版社博文视点出版发行,真诚推荐给每一位读者!点击重磅推荐:建大数据平台太难了!给我发个工程原型吧!了解图书详情,扫码进入京东手机购书页面!

 

以horntonworks给出推荐配置为蓝本,给出一种常见的Hadoop集群上各组件的内存分配方案。方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的。

 

 

Configuration FileConfiguration SettingValue Calculation       8G VM (4G For MR)   
yarn-site.xmlyarn.nodemanager.resource.memory-mb= containers * RAM-per-container4096
yarn-site.xmlyarn.scheduler.minimum-allocation-mb= RAM-per-container1024
yarn-site.xmlyarn.scheduler.maximum-allocation-mb= containers * RAM-per-container4096
mapred-site.xmlmapreduce.map.memory.mb= RAM-per-container1024
mapred-site.xml        mapreduce.reduce.memory.mb= 2 * RAM-per-container2048
mapred-site.xmlmapreduce.map.java.opts= 0.8 * RAM-per-container819
mapred-site.xmlmapreduce.reduce.java.opts= 0.8 * 2 * RAM-per-container1638
yarn-site.xml (check)yarn.app.mapreduce.am.resource.mb= 2 * RAM-per-container2048
yarn-site.xml (check)yarn.app.mapreduce.am.command-opts= 0.8 * 2 * RAM-per-container1638
tez-site.xml  tez.am.resource.memory.mb  = RAM-per-container1024
tez-site.xml  tez.am.java.opts  = 0.8 * RAM-per-container819
tez-site.xml  hive.tez.container.size  = RAM-per-container1024
tez-site.xml  hive.tez.java.opts  = 0.8 * RAM-per-container819

 

 

 

### Hadoop YARN 中 `yarn.application.classpath` 配置项的作用 在 Hadoop YARN 中,`yarn.application.classpath` 是一个重要的配置参数,用于定义应用程序可以访问的类路径(classpath)。此配置项的主要作用是确保 YARN 上运行的应用程序能够找到所需的库文件和依赖项。具体来说: - **作用**: 此配置项指定了一组默认的类路径,这些路径会被添加到所有提交给 YARN 的应用程序的类加载器中[^1]。这使得用户无需手动提供所有的依赖库即可正常运行作业。 - **值的组成**: 类路径通常由多个目录或 JAR 文件路径组成,通过逗号分隔。常见的路径包括但不限于以下内容: - `$HADOOP_CONF_DIR`: 存储 HadoopYARN 配置文件的目录。 - `$HADOOP_COMMON_HOME/share/hadoop/common/*`: 包含通用模块的 JAR 文件。 - `$HADOOP_HDFS_HOME/share/hadoop/hdfs/*`: 包含 HDFS 相关模块的 JAR 文件。 - `$HADOOP_YARN_HOME/share/hadoop/yarn/*`: 包含 YARN 相关模块的 JAR 文件。 - `$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*`: 包含 MapReduce 相关模块的 JAR 文件。 以下是典型的 `yarn.application.classpath` 值示例: ```properties $HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/* ``` 上述路径中的通配符 (`*`) 表示该目录下的所有 JAR 文件都会被包含在类路径中[^4]。 --- ### 如何验证配置是否生效? 可以通过以下方式确认 `yarn.application.classpath` 是否正确设置并生效: 1. 使用命令 `yarn classpath` 查看当前有效的类路径列表。 2. 提交一个简单的测试任务(如 WordCount),观察日志中是否有找不到依赖的错误提示。 如果发现某些必要的库未被加载,则可能需要调整 `yarn-site.xml` 文件中的 `yarn.application.classpath` 参数,并重新启动 YARN 服务以使更改生效。 --- ### 示例代码:修改 `yarn-site.xml` 并重启 YARN 编辑 `yarn-site.xml` 文件,添加或更新如下属性: ```xml <property> <name>yarn.application.classpath</name> <value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,$HADOOP_COMMON_HOME/share/hadoop/common/lib/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_YARN_HOME/share/hadoop/yarn/*,$HADOOP_YARN_HOME/share/hadoop/yarn/lib/*</value> </property> ``` 保存后执行以下操作以应用新配置: ```bash # 刷新 YARN 配置 sudo systemctl restart hadoop-yarn-resourcemanager.service sudo systemctl restart hadoop-yarn-nodemanager.service ``` 或者直接使用脚本停止再启动 YARN: ```bash stop-yarn.sh start-yarn.sh ``` --- ### 注意事项 - 如果集群中有自定义开发的任务或第三方工具集成需求,需额外将相关依赖加入到 `yarn.application.classpath` 中[^3]。 - 当前版本为 Hadoop 3.4.0,不同版本间的默认类路径可能会有所差异,请根据实际环境进行适配。 --- ####
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laurence 

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值