一、实验环境
VMware、finalShell、hadoop、hive
二、问题呈现
- 小小的tips:
每一次的启动日志都是追加在日志文件之后,所以得拉到最后面看,对比下记录的时间就知道了。一般出错的提示在最后面,通常是写着 Fatal、Error、Warning 或者 Java Exception 的地方
三、错误分析
- 我是在做hadoop下载数据文本的时候出现的问题,在输入flume-ng agent -n a1 --conf-file user_behavior-men-hdfs.conf(这里是根据我的数据日志文件名命名) -Dflume.root.logger=INFO,console 显示我的datanode节点有问题,于是我查看我的进程jps,发现的确少了datanode这个节点
- 所以现在就要想办法把datanode节点恢复过来,使它可以运行,把datanode给提取出来具体查看它的问题解析,提取的指令:more hadoop-root-datanode-hadoop01.log(这里的hadoop01是我的master)
- 出现该问题的原因
多次hdfs格式化后,开始的namenode的clusterID会自动重新生成,而datanode的clusterID 则会保持不变。总结来说如果不删除数据和日志的话,重新格式化namenode会产生新的集群ID,这样会和datanode的集群ID产生冲突,导致namenode启动失败。
其次每次的namenode format都会重新创建一个n