HBase启动报错终极排查指南：ServerNotRunningYetException的8种根治方案与实战案例

一个天蝎座白勺程序猿

已于 2025-04-01 18:30:53 修改

阅读量2.1w

点赞数 2

分类专栏：大数据开发从入门到实战合集文章标签： hadoop hbase apache hdfs 分布式大数据

于 2020-05-14 17:25:00 首次发布

本文链接：https://blog.youkuaiyun.com/Dreamy_zsy/article/details/106124520

版权

大数据开发从入门到实战合集专栏收录该内容

67 篇文章

订阅专栏

背景

在使用HBase时，执行hbase shell或访问HBase服务时，常会遇到以下错误：

ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet

该错误表明‌HBase核心服务未完成启动‌，可能由配置错误、依赖服务异常或资源不足引发。本文基于HBase 2.x生产环境运维经验，深入剖析错误原因并提供‌8种解决方案与3个实战案例‌，帮助开发者快速定位问题。

一、错误原因深度解析

1. 核心服务未启动

HMaster未启动‌：HBase主节点未成功启动，无法响应请求。
RegionServer崩溃‌：RegionServer进程因OOM或配置错误退出。

2. 依赖服务异常

ZooKeeper未就绪‌：HBase依赖ZooKeeper管理元数据，若ZK集群异常则HBase无法启动。
HDFS不可用‌：HBase数据存储在HDFS上，若HDFS NameNode或DataNode未运行，HBase服务将阻塞。

3. 配置错误

hbase-site.xml参数错误‌：如端口冲突、目录权限不正确。
网络与防火墙‌：节点间通信被防火墙阻断。

4. 资源不足

内存溢出‌：JVM堆内存不足导致服务崩溃。
磁盘空间不足‌：HDFS或本地磁盘写满，无法创建WAL（Write-Ahead Log）。

5. HDFS安全模式（我的错误是这个）

解除安全模式：

./hadoop dfsadmin -safemode leave

二、8种解决方案与操作步骤

方案1：检查HBase服务状态

# 查看HMaster和RegionServer进程  
jps | grep -E "HMaster|HRegionServer"  

# 若进程不存在，手动启动  
${HBASE_HOME}/bin/start-hbase.sh

预期结果‌：输出中应包含HMaster和HRegionServer进程。

方案2：查看HBase日志定位问题

# HMaster日志路径  
tail -n 100 ${HBASE_HOME}/logs/hbase-<user>-master-<hostname>.log  

# RegionServer日志路径  
tail -n 100 ${HBASE_HOME}/logs/hbase-<user>-regionserver-<hostname>.log

关键日志线索‌：

Could not bind to address → 端口冲突
Unable to create ZooKeeper connection → ZK连接失败
No valid filesystem found → HDFS配置错误

方案3：验证ZooKeeper服务

# 检查ZooKeeper进程  
jps | grep QuorumPeerMain  

# 手动连接ZooKeeper  
${ZK_HOME}/bin/zkCli.sh -server <zk_host>:2181  
ls /hbase  # 确认/hbase节点存在

‌修复措施‌：

启动ZK服务：${ZK_HOME}/bin/zkServer.sh start
检查hbase-site.xml中ZK配置：

<property>  
  <name>hbase.zookeeper.quorum</name>  
  <value>zk1,zk2,zk3</value>  <!-- 替换为实际ZK节点 -->  
</property>

方案4：检查HDFS健康状态

# 确认HDFS NameNode和DataNode运行  
jps | grep -E "NameNode|DataNode"  

# 检查HDFS目录权限  
hdfs dfs -ls /hbase  
# 若权限不足，修复目录权限  
hdfs dfs -chown -R hbase:hadoop /hbase

方案5：解决端口冲突

# 查找占用HBase默认端口（16000/16010）的进程  
netstat -tuln | grep 160  
lsof -i :16000  

# 释放端口或修改HBase端口配置  
vi ${HBASE_HOME}/conf/hbase-site.xml

‌端口配置示例‌：

<property>  
  <name>hbase.master.port</name>  
  <value>16000</value>  
</property>  
<property>  
  <name>hbase.regionserver.port</name>  
  <value>16020</value>  
</property>

方案6：调整JVM内存参数

# 修改HBase JVM堆内存配置（默认1GB可能不足）  
vi ${HBASE_HOME}/conf/hbase-env.sh  
export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -Xms4G -Xmx4G"  
export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -Xms8G -Xmx8G"

方案7：清理HDFS残留数据（谨慎操作）

# 删除损坏的HBase数据（确保已备份）  
hdfs dfs -rm -r /hbase/*  

# 重新初始化HBase目录  
hbase clean --cleanAll

方案8：防火墙与SELinux配置

# 关闭防火墙（测试环境）  
systemctl stop firewalld  

# 或开放HBase端口（生产环境）  
firewall-cmd --zone=public --add-port=16000/tcp --permanent  
firewall-cmd --reload  

# 禁用SELinux  
setenforce 0  
vi /etc/selinux/config  # 改为SELINUX=disabled