完全分布式或者伪分布式的hadoop中map和reduce的System.out与System.err的输出去哪儿啦？

最新推荐文章于 2023-11-09 21:03:31 发布

原创最新推荐文章于 2023-11-09 21:03:31 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #system.out #system.err #map #reduce

hadoop 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种调试Hadoop MapReduce应用程序的方法。通过配置Hadoop环境并启动特定服务，如HistoryServer和ProxyServer，可以在分布式环境中查看任务的标准输出。文章详细说明了如何修改配置文件和脚本来实现这一目标。

1.问题背景

我需要调试mapreduce函数，可是不像单机模式只有一个进程会将各种输出输出到控制台，我使用的是完全分布式（经过试验，伪分布式类似），这就需要其他方法了。

2.解决思路

从网上搜索标准输入输出到哪里去了，有两种方式，一种是访问50030端口，一种是访问$HADOOP_HOME/logs/userlogs/attempt_xxx目录，可是两种都失败了。

3.问题探索

发现这50030是针对JobTracker、TaskTracker的，而我的版本是0.23.4只有ResourceManager和NodeManager，所以该端口不管用了。

而访问目录的方法实际上可以用，不过不是存在网上写的位置

4.解决方法

要在网上查看，要启动historyserver和proxyserver两项服务，可以将start-yarn.sh文件后面一段改为

# start proxyserver
"$bin"/yarn-daemon.sh --config $YARN_CONF_DIR  start proxyserver
# start historyserver
"$bin"/mr-jobhistory-daemon.sh start historyserver

同时将./stop-yarn.sh后面一段改为

# stop proxy server
"$bin"/yarn-daemon.sh --config $YARN_CONF_DIR  stop proxyserver
# stop historyserver
"$bin"/mr-jobhistory-daemon.sh stop historyserver

再运行

sudo mkdir -p $HADOOP_HOME/share/hadoop/yarn/webapps/proxy

这是因为hadoop编译器把这个空目录忽略了，如果不新建会报找不到文件错误

最后一步就是更改yarn-site.xml的配置，感觉不怎么说得清楚，说一下大概

最后更改yarn-site.xml大家根据自己需要设置端口，需要增加yarn.log-aggregation-enable为 true，yarn.web-proxy.address为ip:port，yarn.nodemanager.remote-app-log-dir设置汇总后的目录位置，可任意，但不要以file:/开头，我还把yarn.log-aggregation.retain-seconds设置为-1，需设置mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address为 ip:port，此外要注意yarn.nodemanager.log-dirs不能以file:/开头否则无法在网页上查看。

然后在浏览器上输入historyserver的网址即mapreduce.jobhistory.webapp.address的值就可以查看输出了，首先选中job然后是map/reduce,再到task，最后到attempt，查看logs就可以看到map或reduce的输出（包括stderr、stdout、syslog）