大数据(2d)历史服务器,日志聚集

本文介绍Hadoop中历史服务器配置方法及日志聚集功能启用步骤,并通过两个MapReduce任务实例演示如何查看聚合后的日志信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文续:https://yellow520.blog.youkuaiyun.com/article/details/110425351

服务名Hadoop100Hadoop101Hadoop102
DataNode111
NameNode1
SecondaryNameNode1
ResourceManager1
NodeManager111
JobHistoryServer1

1、历史服务器(JOB历史)

目的:查看 提交的JOB 的 历史运行情况

1、配置(在hadoop102上配,注意地址不要乱)

vi $HADOOP_HOME/etc/hadoop/mapred-site.xml
<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

2、文件分发(可选)

rsync.py $HADOOP_HOME/etc/hadoop/mapred-site.xml

3、启动历史服务器(在hadoop102上)

mapred --daemon start historyserver

ssh hadoop102 'mapred --daemon start historyserver'

4、jps可以看到多了个JobHistoryServer

5、浏览器查看端口19888

6、关闭服务的命令

mapred --daemon stop historyserver

ssh hadoop102 'mapred --daemon stop historyserver'

2、日志聚集

目的:应用运行完成以后,将程序运行日志信息上传到HDFS(不配的话,信息存本地不好找)

1、配置(注意:yarn.log.server.urlhadoop102:19888要和上面历史服务器mapreduce.jobhistory.webapp.address保持一致

vi $HADOOP_HOME/etc/hadoop/yarn-site.xml
<!-- 开启日志聚集  -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 浏览器访问的URL -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 保存的时间7天(3600*24*7) -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

2、文件分发

cd $HADOOP_HOME/etc/hadoop/
rsync -va yarn-site.xml hadoop100:$HADOOP_HOME/etc/hadoop/
rsync -va yarn-site.xml hadoop101:$HADOOP_HOME/etc/hadoop/
rsync -va yarn-site.xml hadoop102:$HADOOP_HOME/etc/hadoop/

3、重启YARN和历史服务器

ssh hadoop102 "stop-yarn.sh"
ssh hadoop102 "mapred --daemon stop historyserver"
ssh hadoop102 "start-yarn.sh"
ssh hadoop102 "mapred --daemon start historyserver"

3、提交两个MapReduce任务

数据准备

cd ~
echo "a b c" > a.txt
echo "b c d" > b.txt
hadoop fs -rm -r /input
hadoop fs -rm -r /output1 /output2
hadoop fs -mkdir /input
hadoop fs -put a.txt /input/
hadoop fs -put b.txt /input/

提交任务(词频统计)

hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar \
wordcount \
/input /output1
hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar \
wordcount \
/input /output2

配置【日志聚集】后才能查看【log】

在HDFS上可以找到那个日志文件

4、补充

可选命令

yarn --daemon start timelineserver

然后jps可以看到多了个ApplicationHistoryServer
这个和序列化以及Spark有关?

yarn --daemon stop timelineserver
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小基基o_O

您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值