1 问题重现
通过Cloudera Manager主页访问“主机”页面,发现其中一台主机有2条重复的记录,一条有角色相关信息但是心跳明显超时很久了,另外一台有心跳但是没有主机角色信息,而且所有主机都是未知状态,如下:
回到Cloudera Manager主页也发现无论是Cloudera Management Service还是集群的Hadoop服务都是未知状态。
重启Cloudera Management Service显示失败:
- 测试环境
1.CDH6.1
2.Redhat7.4
3.采用root进行操作
2 问题解决
1.首先我们登录MySQL,并查看Cloudera Manager数据库的HOSTS表进行核对。
mysql -u root -p
use cm;
SELECT HOST_ID,NAME,IP_ADDRESS,HOST_IDENTIFIER FROM HOSTS;
Fayson的集群一共4台机器,发现确实有5台主机,并且IP为172.31.6.83有两台机器:
2.查看Cloudera Manager数据库的ROLES_AUD即角色表确认172.31.6.83有角色的HOST_ID。
MariaDB [cm]> select * from ROLES_AUD order by HOST_ID;
对应第1步的HOSTS表的数据,发现并没有HOST_ID为5的数据,所以我们主要需要处理HOST_ID为5同时IP也为172.31.6.83的数据。
3.从第1步的HOSTS表的数据记录重复的172.31.6.83主机的HOST_IDENTIFIER值。
MariaDB [cm]>