现象
zookeeper版本为3.4.3, hbase版本为0.94.7。
按照zk的设计,一台机器down了之后应该仍然可以工作,但实际上应用中并不如此。
Zookeeper一台机器在生产环境中被挪走,客户端始终无法连接HBase。问题排查
抛出如下异常:
Caused by: java.net.UnknownHostException: ops-new-launch-7237.iad7.amazon.com at java.net.InetAddress.getAllByName0(InetAddress.java:1259) at java.net.InetAddress.getAllByName(InetAddress.java:1171) at java.net.InetAddress.getAllByName(InetAddress.java:1105) at org.apache.zookeeper.client.StaticHostProvider.<init>(StaticHostProvider.java:60) at org.apache.zookeeper.ZooKeeper.<init>(ZooKeeper.java:440) at org.apache.zookeeper.ZooKeeper.<init>(ZooKeeper.java:375) at org.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper.<init>(RecoverableZooKeeper.java:98) at org.apache.hadoop.hbase.zookeeper.ZKUtil.connect(ZKUtil.java:127) at org.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher.<init>(ZooKeeperWatcher.java:153) at org.apache.hadoop.hbase.z

当Zookeeper版本为3.4.3,Hbase版本为0.94.7时,尽管Zookeeper设计上允许单台机器故障仍能工作,但在实际应用中发现并非如此。异常情况显示在解析hostname的IP时抛出了UnknownHostException,源码分析表明此异常没有进行retry处理,这意味着Zookeeper在遇到DNS中的host移除时无法正确处理,从而影响其容错能力。
最低0.47元/天 解锁文章
525

被折叠的 条评论
为什么被折叠?



