1.处理hadoop的datanode宕机
进入到hadoop的bin目录
./hadoop-daemon.sh start datanode
./hadoop-daemon.sh start tasktracker
2.处理hadoop的namenode宕机
./hadoop-daemon.sh start namenode
./hadoop-daemon.sh start tasktracker
3.如果是新添加一个节点,需要执行以下步骤:
首先,把新节点的 IP或主机名 加入主节点(master)的 conf/slaves 文件。
然后登录新的从节点,执行以下命令:
$ cd path/to/hadoop
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker
然后就可以在master机器上运行balancer,执行负载均衡
$bin/hadoop
4.处理hbase的regionserver宕机的办法
./hbase-daemon.sh start regionserver
./hbase-deamon.sh start zookeeper//只针对有zookeeper的regionserver而且是机子需要重启的情况
5.处理hbase的master宕机的办法
./hbase-daemon.sh start master
./hbase-daemon.sh start zookeeper//可选
6.完全重启整个集群的过程
首先是用root权限关闭所有节点的防火墙,/etc/init.d/iptables stop
然后启动hadoop集群
来到hadoop的安装路径执行:
./start-all.sh
待到集群全部成功启动之后两分钟之后执行关闭hadoop文件系统的安全模式,
./hadoop dfsadmin -safemode leave
对于hadoop文件系统安全模式的解释,如下
NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1- dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。
有两个方法离开这种安全模式
(1)修改dfs.safemode.threshold.pct为一个比较小的值,缺省是0.999。
(2)hadoop dfsadmin -safemode leave命令强制离开
用户可以通过dfsadmin -safemode $value来操作安全模式,参数$value的说明如下:
enter – 进入安全模式
leave – 强制NameNode离开安全模式
get – 返回安全模式是否开启的信息
wait – 等待,一直到安全模式结束。