yarn配置日志聚合

最新推荐文章于 2025-05-12 11:26:38 发布

zhangxiong0301

最新推荐文章于 2025-05-12 11:26:38 发布

阅读量398

点赞数

CC 4.0 BY-SA版权

分类专栏： HADOOP 文章标签： yarn 日志聚合 hadoop

本文链接：https://blog.youkuaiyun.com/zhangxiong0301/article/details/84706651

HADOOP 专栏收录该内容

39 篇文章

订阅专栏

日志聚集是YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container/任务日志存在在各个NodeManager上，如果启用日志聚集功能需要额外的配置。

这个日志存储的就是具体map和reduce的日志，包括框架的和应用程序里自己打印的。这个日志聚合是用来看日志的，而mapreduce job history server，则是用来看某个application的大致统计信息的，包括启停时间，map任务数，reduce任务数以及各种计数器的值等等。job history server是抽象概要性的统计信息，而聚合日志是该application所有任务节点的详细日志集合。

查看日志的命令：$HADOOP_HOME/bin/yarn logs -applicationId <app Id>。app id在你命令行执行mapreduce任务的
时候会出现的，比如会出现这么一行：

15/03/16 20:14:27 INFO mapreduce.Job: The url to track the job: http://ylhadoop126:8088/proxy/application_1426507165782_0002/。
或者去你配置的yarn.nodemanager.remote-app-log-dir所指定的hdfs路径找，具体路径格式为${yarn.nodemanager.remote-app-log-dir}/$user/logs/${app Id}/$nodelog

要实现日志聚集，只需要在yarn-site.xml中配置如下几个参数：

（1） yarn.log-aggregation-enable

参数解释：是否启用日志聚集功能。

默认值：false

（2） yarn.log-aggregation.retain-seconds

参数解释：在HDFS上聚集的日志最多保存多长时间。

默认值：-1

（3） yarn.log-aggregation.retain-check-interval-seconds

参数解释：多长时间检查一次日志，并将满足条件的删除，如果是0或者负数，则为上一个值的1/10。

默认值：-1

（4） yarn.nodemanager.remote-app-log-dir

参数解释：当应用程序运行结束后，日志被转移到的HDFS目录（启用日志聚集功能时有效）。