1. 故障描述
hadoop 启动后,能够正常执行程序(hadoop jar …)若干次(小于10次),然后再要执行,就开始出现各种故障,包括但不限于
1.1 namenode 故障
- 一个 namenode: 9000 端口 connection refused
- 两个 namenode 都是 standby 状态
- 以下描述,等等:
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby
1.2 resource manager 故障
- resource manager : 8032 端口 connection refused
- 两个 resource manager 都是 standby 状态
2. 故障处理
2.1 读取对应的 logs 文件
查看关于故障的详细描述和原因,然后针对性解决。如果日志文件没有给出故障原因比如我的日志里面只是描述 connection refused 但是没有给出 caused by 原因。尝试按照以下手段来解决。
2.2 针对无明确原因的 namenode 故障
- 查看 namenode 状态如下:
hdfs haadmin -getAllServiceState