主机运行状况不良。

Centos7 安装sdh集群,显示如下错误:

解决方法:

删除有问题节点下的lib/cloudera-scm-agent/下的cm_guid文件,然后重启

cd /opt/cloudera-manager/cm-5.14.1/lib/cloudera-scm-agent/
rm -rf cm_guid
./cloudera-scm-agent start

转载于:https://my.oschina.net/lwenhao/blog/3022319

<think>嗯,用户之前问了关于Cloudera Manager权限的问题,现在又遇到了CDH安装Parcel时主机状态不良的问题。这两个问题都属于Cloudera集群部署中的常见错误,可能用户正在搭建CDH集群,遇到了安装过程中的障碍。需要先理解用户当前的问题场景:在安装Parcel时,主机状态显示不良,导致安装失败。 首先,用户可能对CDH的安装流程不太熟悉,特别是在处理主机状态检查时。Cloudera Manager在安装Parcel之前会对集群的主机进行一系列健康检查,如果这些检查未通过,安装就会中断。接下来要分析可能导致主机状态不良的原因,可能涉及网络、服务状态、资源限制、配置错误等。 用户可能已经按照官方文档进行了安装,但在某些步骤中出现了问题,比如主机间的通信问题,或者系统配置不符合要求。需要考虑到用户的环境,例如是否在云环境或物理机,操作系统版本,防火墙设置,SELinux状态,时间同步等。 接下来需要分步骤思考可能的原因和解决方案。例如,检查Cloudera Manager Agent的状态,确认主机是否正常注册;检查网络连通性,特别是端口是否开放;查看系统资源,如内存、磁盘空间是否足够;确认时间同步是否配置正确;检查防火墙或SELinux是否阻止了必要的通信;还有可能需要检查主机主机名解析是否正确,避免使用localhost或错误的FQDN。 此外,用户可能在之前的步骤中遗漏了某些配置,比如SSH免密登录设置,或者目录权限问题。需要指导用户查看相关日志,如Cloudera Manager的日志,主机的agent日志,以及parcel分发日志,以获取具体的错误信息。 可能用户已经尝试过重启服务或重新安装,但问题依旧存在。因此需要系统性地列出可能的原因,并提供对应的解决步骤,帮助用户逐一排查。同时,考虑到用户可能不太熟悉Linux系统管理,需要用简洁明了的命令和步骤,避免过于复杂的操作。 最后,需要提醒用户如果自行排查困难,可以参考官方文档或寻求社区支持,确保问题能够彻底解决,避免安装过程中的其他潜在问题。</think>在 CDH 集群安装过程中,若出现 **“正在安装选定 Parcel 时显示主机状况运行不良”** 的报错,通常是由于 **主机健康检查未通过** 或 **基础环境配置不符合要求** 导致。以下是系统性排查和解决方案: --- ### **1. 检查主机健康状态** #### **(1) 查看 Cloudera Manager 主机状态** - 登录 Cloudera Manager Web 控制台,进入 **Hosts > All Hosts**。 - 检查每台主机的状态图标: - **红色警告**:关键问题(如 Agent 未运行、资源不足)。 - **黄色警告**:次要问题(如时间不同步、未启用透明大页)。 #### **(2) 修复常见健康检查项** | **检查项** | **修复方法** | |--------------------------|-----------------------------------------------------------------------------| | **Cloudera Management Service 未运行** | 启动服务:`sudo systemctl restart cloudera-scm-server cloudera-scm-agent` | | **主机时钟不同步** | 启用 NTP 同步:`sudo ntpdate <NTP服务器>`,并配置 `/etc/ntp.conf` | | **透明大页(THP)未禁用**| 禁用 THP:<br>`echo never > /sys/kernel/mm/transparent_hugepage/enabled`<br>`echo never > /sys/kernel/mm/transparent_hugepage/defrag` | | **交换分区(Swap)未禁用**| 临时禁用:`sudo swapoff -a`<br>永久禁用:注释 `/etc/fstab` 中的 swap 行 | --- ### **2. 验证网络连通性** #### **(1) 检查主机间通信** 确保所有节点之间可通过 **主机名/FQDN** 互相访问: ```bash # 在每台主机上测试(示例) ping -c 3 <其他主机名> ``` - **若无法解析主机名**:更新 `/etc/hosts` 或 DNS 配置,确保所有节点的主机名一致。 #### **(2) 检查端口开放** CDH 依赖特定端口(如 **7180, 7182, 8020, 8485** 等)。验证防火墙是否放行: ```bash # 临时关闭防火墙(测试用) sudo systemctl stop firewalld # CentOS/RHEL sudo ufw disable # Ubuntu # 或放行端口 sudo firewall-cmd --zone=public --add-port=7180/tcp --permanent sudo firewall-cmd --reload ``` --- ### **3. 检查 Cloudera Agent 状态** #### **(1) 确认 Agent 正常运行** ```bash # 在所有节点执行 sudo systemctl status cloudera-scm-agent ``` - 若未运行:启动并加入开机自启: ```bash sudo systemctl start cloudera-scm-agent sudo systemctl enable cloudera-scm-agent ``` #### **(2) 查看 Agent 日志** 检查日志中的错误细节: ```bash tail -f /var/log/cloudera-scm-agent/cloudera-scm-agent.log ``` 常见问题: - **无法连接 Cloudera Manager Server**:检查 Server 的 `7180` 端口是否开放。 - **证书错误**:重新生成证书或同步时间。 --- ### **4. 修复 Parcel 分发问题** #### **(1) 检查 Parcel 存储目录权限** 默认 Parcel 目录为 `/opt/cloudera/parcels`,确保权限正确: ```bash sudo chown -R cloudera-scm:cloudera-scm /opt/cloudera sudo chmod -R 755 /opt/cloudera ``` #### **(2) 手动分发 Parcel(可选)** 若自动分发失败,可手动操作: 1. 从 CM 界面下载 Parcel 的 `.parcel` 和 `.sha1` 文件。 2. 上传到所有节点的 `/opt/cloudera/parcel-repo` 目录。 3. 在 CM 界面点击 **分配 > 激活**。 --- ### **5. 验证系统资源** #### **(1) 磁盘空间不足** 检查 `/opt`、`/var` 等分区是否空间不足: ```bash df -h ``` - 清理旧日志或扩容磁盘。 #### **(2) 内存或 CPU 过载** 检查资源使用情况: ```bash free -h top ``` - 关闭非必要进程,或扩容主机资源。 --- ### **6. 检查 SELinux 和 AppArmor** #### **(1) 临时禁用 SELinux** ```bash sudo setenforce 0 # 临时生效 sudo vi /etc/selinux/config # 永久生效:SELINUX=disabled ``` #### **(2) 禁用 AppArmor(Ubuntu)** ```bash sudo systemctl stop apparmor sudo systemctl disable apparmor ``` --- ### **7. 重置集群状态(终极方案)** 若以上步骤无效,尝试重置环境: 1. 停止所有服务并清理数据: ```bash sudo systemctl stop cloudera-scm-agent sudo rm -rf /var/lib/cloudera-* /var/log/cloudera-* /opt/cloudera ``` 2. 重新安装 Cloudera Manager Agent: ```bash sudo yum reinstall cloudera-manager-agent # CentOS/RHEL sudo apt-get install --reinstall cloudera-manager-agent # Ubuntu ``` --- ### **排查流程图** ```mermaid graph TD A[主机状态不良] --> B{检查健康状态} B -->|Agent 未运行| C[启动 Agent] B -->|时间不同步| D[配置 NTP] B -->|THP/Swap 未禁用| E[修改内核参数] A --> F{检查网络} F -->|主机名解析失败| G[更新 hosts/DNS] F -->|端口阻塞| H[放行端口] A --> I{检查资源} I -->|磁盘不足| J[清理或扩容] I -->|内存/CPU 不足| K[优化或扩容] A --> L{检查权限} L -->|Parcel 目录权限错误| M[修复目录权限] L -->|SELinux/AppArmor 拦截| N[禁用安全模块] ``` --- ### **注意事项** - **日志优先**:始终通过 `/var/log/cloudera-scm-agent/` 和 Cloudera Manager 界面日志定位具体错误。 - **批量操作**:使用 Ansible 或 Shell 脚本在多台主机上批量执行命令。 - **版本兼容性**:确认操作系统版本、JDK 版本与 CDH 版本兼容(如 CDH 6.x 需 JDK 8)。 通过以上步骤可解决大多数“主机状况运行不良”问题。若仍报错,建议提供具体日志内容进一步分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值