使用cloudera manager重启集群后部分节点无法启动问题解决

最新推荐文章于 2024-12-05 21:03:18 发布

原创最新推荐文章于 2024-12-05 21:03:18 发布 · 3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop节点无法启动 #cloudera manager #CM #hadoop #hdfs

hadoop运维专栏收录该内容

15 篇文章

订阅专栏

博主遇到过使用cloudera manager重启集群后出现多个节点所有功能均无法连接，对该主机功能进行单点启动时并无报错信息，因为查询不到报错信息，就无法针对性的进行修复，所以进行多次测试定位到问题原因：

常见单节点无法启动导致原因为cm连接异常，命令传输超时，并且日志中无报错，此时应重启该节点cm agent应用

cm重启方法：找到cm存放路径(如安装路径不同和安装版本不同，需按照实际修改)

例：

/opt/cm-5.3.2/etc/init.d/cloudera-scm-agent status       查看状态
/opt/cm-5.3.2/etc/init.d/cloudera-scm-agent restart       重启命令

因cm版本不同重启方法有差别，也可使用以下命令进行重启

sudo service cloudera-scm-agent restart

如启动后查看状态为：cloudera-scm-agent dead but pid file exists

一般为9000端口占用所致，具体可查看cm agent日志来查看问题原因(如安装路径不同和安装版本不同，需按照实际修改)：

/opt/cm-5.3.2/log/cloudera-scm-agent/cloudera-scm-agent.log

杀死该端口方法：

kill -9 $(sudo netstat -tlnp | grep :9000 | awk '{print $7}' | awk -F '/' '{print $1}')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AA赵师傅

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

kafka重启报错 |cloudera manager访问返回500 | HDFS启动出错

weixin_48960305的博客

09-16

1049

kafka重启报错 | Cloudera Manager 浏览器访问返回500 | hdfs 启动出问题1.Unable to retrieve non-local non-loopback IP address. Seeing address: cm/127.0.0.1 2.ERROR ScmActive-0:com.cloudera.server.cmf.components.ScmActive: ScmActive was not able to access CM identity to valid

在WIN server 2012下配置sqlserver2014 alwayson 故障集群转移

RunEric的博客

01-05

1391

1.服务器规划服务器 Ip DNS SQLDC 192.168.171.20 127.0.0.1 SQLNODE1 192.168.171.21 192.168.171.20 SQLNODE2 192.168.171.22 192.168.171.20 .

参与评论您还未登录，请先登录后发表或查看评论

如何重启Cloudera Manager？

weixin_33859665的博客

03-09

966

为什么重启：突然发现ClouderaManager的webui访问不了了…… 我使用netstat看了一下我的webui监听端口，发现尼玛N多CLOSE_WAIT，网上查了一下是Socket关闭有问题导致N多挂起链接。原因并如何解决：找了半天，没有找到很好的办法，只得用重启CDM来解决的。如果大家有更好的办法，请留言哈。重启脚本： /opt/cloudera-manag...

Cloudera 重启

mllhxn的专栏

02-16

2084

/etc/init.d/ntpd start /etc/init.d/postgresql start /etc/init.d/mysqld start service cloudera-scm-server start

Cloudera Manager挂了重启数据初始化

y919610545的博客

07-01

801

Cloudera Manager挂了重启数据初始化记一次CM挂了事件突然发现CM挂了，第一反应就是重新启动CM Server，但是发现重启之后metadata+hive表数据重新初始化。查找各种资料之后利用mysqldump命令备份的文件终于恢复了数据。后续 1、mysql要开启binlog 2、mysql开启定期备份（1天） ...

精选资源

大数据集群Cloudera Manager日常运维手册.docx

10-13

Cloudera Manager日常运维手册是大数据集群管理员的必备指南，它提供了详细的操作指南和维护技巧，帮助管理员快速熟悉Cloudera Manager的使用和维护。一、登录Cloudera Manager Cloudera Manager的登录过程非常...

ClouderaManager 集群搭建

weixin_44449054的博客

12-05

856

CDH大数据平台搭建，各大数据组件的安装

精选资源

CLOUDERA-Manager_中文手册（全高清）+ CDH安装手册.pdf

03-12

* 节点级别监控：Cloudera Manager提供了节点级别的监控功能，能够监控每个节点的状态。 * 自定义报警监控：Cloudera Manager提供了自定义报警监控功能，能够根据用户定义的规则触发报警。 * 自定义图表：Cloudera ...

Cloudera Manager搭建集群环境过程中部分错误解决

sy793314598的博客

05-19

3103

Cloudera Manager搭建集群环境过程中部分错误解决前一阵子在公司的几台测试机上搭建cdh的集群环境，过程中遇见了不少问题，这里记录一下：一、版本信息：项版本安装方式服务器 5台（1master, 4slave） * CentOS Linux release 7.3.1611 (Core) \ Cloudera Manag...

使用新cloudera manager接管原有CDH集群

no_hot的博客

10-08

415

文章目录问题描述解决方案问题复现解决步骤问题描述原有Cloudera Manager的cm库被删，导致Cloudera Manager不可用。后由于其他原因，导致集群服务不可用，且手动重启失败。解决方案重新安装Cloudera Manager及CDH集群，接管原集群数据。问题复现 1.搭建CDH集群，在hive中插入测试数据 2.删除Cloudera Manager的cm库，导致Cloudera Manager不可用解决步骤 1.停止集群上的所有服务，我这里选择的直接reboo

ClouderaManager

03-17

本书全面地讲解了Raspberry Pi硬件组合和操作系统的使用，从主板的介绍到操作系统语法的讲解，再到如何与Arduino交互应用，图文并茂、由浅入深地引导开发者，逐步深入剖析当下热门应用案例，具有很强的实操性，还有大量珍贵程序代码。本书适合电子专业、互交设计专业、新媒体技术专业学生阅读，也是电子

CDH重启服务cloudera-scm-agent启动失败（ MainThread agent ERROR Heartbeating to 172.16.66.242:7182 ）

热门推荐

qq_30921461的博客

04-12

2万+

今天我登陆cdh监控页面172.16.66.242:7180界面时发现拒绝访问，发现我的cdh服务挂掉了。这个没啥，我就准备重启服务嘛，按照正常流程，先检查下mysql服务先确保mysql启动服务service mysqld status如果没有开启重启下service mysqld restart然后进入cd /opt/cloudera-manager/cm-5.11.1/etc/init.d然...

Cloudera Manager搭建集群服务器启动失败

象在舞的技术专栏

06-26

2090

问题： cloudera manager搭建集群的服务器暂停一段时间后，启动失败。解决办法：可能是因为server和agent没有启动在Linux下启动server和agent，重启监控界面的服务即可。此处需要注意的是，有些组件对集群的时间要求比较高，例如HBase，如果遇到关于HBase的以下错误，可以尝试着同步以下集群的时间。同步时间之后，监控界面重启H...

Cloudera Management Service -- Event Server 起不来，解决方法

fairynini的博客

06-21

3343

问题解决了，忘了截图。。。意思意思？问题： Cloudera Management Service Event Server起不来，看此处日志看不到任何问题或报错，重启该节点的 systemctl restart cloudera-scm-agent systemctl restart cloudera-scm-server 亦不能解决问题。查看服务器上的log，位置如下：发现日志里全是乱码，依然没有头绪，卡了半天。解决：参考其他博主的event server报错解决办法虽然我看不到自己的

clouder manager

yunmeng879的博客

03-03

484

clouder manager 重启出错： [root@master ~]# systemctl restart cloudera-scm-server 2021-03-03 15:05:56,256 ERROR main:com.cloudera.server.cmf.Main: Server failed. org.springframework.beans.factory.access.BootstrapException: Unable to return specified BeanFactor

cloudera-scm-agent 启动失败

x737686314的博客

02-27

921

在解决故障的过程中，查看/var/log/cloudera-scm-agent中的log未发现问题，检查了该节点的防火墙、SELinux、磁盘空间大小，防火墙和SELinux处于关闭状态，磁盘空间充足。在系统日志中发现报错/usr/bin/python2: No such file or directory，/usr/sbin等目录下未找到python命令导致。再次查看/usr/bin目录下python，发现有python2了。查看/usr/bin目录下python，发现没有python。

黑猴子的家：Cloudera Manager 之集群启动

黑猴子的博客

05-11

444

1、启动cloudera-scm-server [root@hadoop102 opt]# cd cm-5.14.1/etc/init.d/ [root@hadoop102 init.d]# ./cloudera-scm-server start Starting cloudera-scm-server: [ OK ] 2、启动clou...

hbase集群搭建，hbase单个节点重启

涂作权的博客

06-22

7010

1.1 hbase集群结构 REGION：是HBASE中对表进行切割的单元 HMASTER： HBASE的主节点，负责整个集群的状态感知，负载分配、负责用户表的元数据管理（可以配置多个用来实现HA）为regionserver分配region，负责regionserver负载均衡用户对表的增删改查如果当前的regionserver宕机，会把region迁移 REGION-S...

我是从cloudera manager的yarn实例重启，重启成功后又会有问题日志一直在重复打印...

weixin_35751412的博客

01-14

174

可能是因为重启后程序出现了错误，导致日志不断重复打印。建议检查程序错误日志，确认具体原因并解决问题。

cloudera平台hdfs 集群启动不了也无法重启

最新发布

03-11

<think>好的，用户遇到了Cloudera平台HDFS集群无法启动和重启的问题，需要解决方案。我需要结合之前提供的引用信息，特别是引用[1]、[2]、[3]、[5]中的相关内容，来构建一个结构清晰的回答。首先，我应该先分析可能的错误原因。根据引用[2]，安装过程中可能残留旧文件导致冲突，需要清理。另外，引用[5]提到日志目录和堆转储目录的可用空间不足可能导致问题，这也需要检查。引用[1]提到的HDFS社区修复的滚动升级和降级问题可能相关，尤其是在升级或降级过程中出现的不兼容问题，需要确认是否应用了相关补丁。引用[3]关于HA配置的问题，比如NameNode的状态是否正常，ZKFC进程是否运行，这些都可能影响集群启动。接下来，解决方案部分需要分步骤。第一步是检查日志，用户需要查看NameNode、DataNode、JournalNode的日志，以及Cloudera Manager的日志，寻找具体的错误信息。第二步是处理残留文件，根据引用[2]，删除残留的元数据和数据目录。第三步是检查存储空间，引用[5]中的日志目录和堆转储目录空间不足，需要清理或扩容。第四步是验证HA配置，确保ZKFC正常运行，NameNode状态同步。第五步是检查网络和端口，确认端口未被占用，网络通畅。第六步是使用Cloudera的修复工具，比如重新生成启动脚本或修复ZooKeeper。第七步是应用社区补丁，参考引用[1]中的HDFS-13596等issue，升级到包含这些修复的版本。然后，相关问题部分需要生成与HDFS集群启动失败相关的其他问题，比如日志分析、空间不足、HA配置、升级失败等，引导用户进一步排查。最后，要确保回答中引用了正确的来源，比如在清理残留文件部分引用[2]，存储空间引用[5]，HA配置引用[3]，社区补丁引用[1]。同时，保持回答结构清晰，分步骤说明，帮助用户逐步解决问题。</think>### Cloudera HDFS集群启动失败解决方案 #### 一、错误原因分析 1. **残留文件冲突** 安装或升级过程中可能存在未清理的旧配置文件或数据目录，例如`/var/lib/hadoop-hdfs`或`/data/hdfs`路径下残留的`namenode`元数据文件。此类问题常见于重复安装或降级操作场景[^2]。 2. **存储空间不足** - 日志目录（如`/var/log/hbase`）或堆转储目录（如`/tmp`）可用空间低于5GB时，会触发系统保护机制阻止服务启动[^5] - 数据节点磁盘空间不足会导致DataNode无法注册到NameNode。 3. **HA配置异常** 高可用模式下JournalNode未同步、ZKFC进程异常或ZooKeeper仲裁失败会导致NameNode无法完成主备切换[^3]。 4. **版本兼容性问题** 未修复的HDFS已知问题可能导致启动失败，例如滚动升级过程中出现的元数据不兼容（涉及HDFS-13596等关键issue）[^1]。 --- #### 二、分步解决方案 **第一步：检查关键日志** ```bash # NameNode日志 tail -n 100 /var/log/hadoop-hdfs/hadoop-hdfs-namenode-*.log # DataNode日志 tail -n 100 /var/log/hadoop-hdfs/hadoop-hdfs-datanode-*.log # Cloudera Manager Agent日志 grep "HDFS" /var/log/cloudera-scm-agent/cloudera-scm-agent.log ``` 重点关注以下错误模式： - `java.io.IOException: Incompatible clusterIDs`（元数据冲突） - `Cannot lock storage ... Directory is locked`（文件锁残留） - `No space left on device`（存储空间不足） **第二步：清理残留文件** ```bash # 停止所有HDFS服务 sudo service hadoop-hdfs-namenode stop sudo service hadoop-hdfs-datanode stop # 删除元数据目录（先备份！） rm -rf /dfs/nn/current/* # 清理临时文件 rm -rf /tmp/hadoop-* /var/lib/hadoop-hdfs/cache/* ``` *注意：操作前需通过`hdfs dfsadmin -report`确认数据副本状态[^2]* **第三步：检查存储空间** 通过CM控制台或命令行检查： ```bash # 检查各节点存储 df -h /var/log /tmp /data* # 清理日志文件 sudo find /var/log -name "*.log" -mtime +7 -exec rm {} \; ``` *建议保持日志目录至少10%可用空间* **第四步：验证HA配置** ```bash # 检查JournalNode状态 curl http://journalnode-host:8480/jmx?qry=Hadoop:service=JournalNode,name=JournalNode-* # 强制同步元数据 hdfs haadmin -ns <nameservice> -transitionToActive --forcemanual <namenode-id> ``` *高可用配置需确保ZKFC进程正常运行[^3]* **第五步：端口冲突检查** ```bash # 检查NameNode端口 netstat -tuln | grep '8020\|8022\|50070' # 检查DataNode端口 netstat -tuln | grep '50010\|50020\|50075' ``` *若端口被占用，需修改`hdfs-site.xml`中对应配置项* **第六步：使用Cloudera修复工具** 通过CM界面执行： 1. 集群 > 操作 > 重新生成启动脚本 2. 主机 > 操作 > 重新部署客户端配置 3. Zookeeper > 操作 > 初始化元数据 **第七步：应用社区补丁** 对于已知问题（如HDFS-13596），需升级到包含修复的版本： ```bash # 查看当前HDFS版本 hdfs version # 升级操作示例 sudo yum update hadoop-hdfs-3.0.0+cdh6.3.2* ``` *升级前需验证版本兼容性[^1]* ---