[url]http://zh.hortonworks.com/blog/introduction-to-hbase-mean-time-to-recover-mttr[/url]
收藏这篇文章有一段时间了,随着对hbase,hdfs理解的深入,最近才能看懂...
其实作者说的主要问题在于,hbase集群往往和hdfs集群共用物理服务器.服务器的crash,在失去一个region server的同时,也失去了一个datanode,失去datanode,直接导致一个replica的缺失.hdfs 的datanode的超时时间远远小于hbase的region server,因此在进行hbase的recovery的时候,有可能要去stale状态的datanode上获得数据,因此hbase的MTTR变长了.
收藏这篇文章有一段时间了,随着对hbase,hdfs理解的深入,最近才能看懂...
其实作者说的主要问题在于,hbase集群往往和hdfs集群共用物理服务器.服务器的crash,在失去一个region server的同时,也失去了一个datanode,失去datanode,直接导致一个replica的缺失.hdfs 的datanode的超时时间远远小于hbase的region server,因此在进行hbase的recovery的时候,有可能要去stale状态的datanode上获得数据,因此hbase的MTTR变长了.

本文深入探讨了HBase集群与HDFS集群共用物理服务器时,服务器崩溃导致的数据丢失及恢复过程中的MTTR延长问题。通过分析HDFS和HBase的组件特性,揭示了在进行恢复操作时可能访问到失效datanode的情况,从而影响恢复效率。
447

被折叠的 条评论
为什么被折叠?



