1.1 CAP理论简介
CAP 分别为 consistency (强一致性)、availability (可用性) 和 partition tolerance (分区容错性)。
理论核心: 在分布式系统中,一个分布式系统不可能同时很好的满足一致性、可用性和分区容错性这三个需求。因此,根据 CAP 原理将 NoSQL 数据库分成满足 CA 原则、满足 CP 原则和满足 AP 原则三大类:
CA:单点集群,满足一致性,可用性的系统,通常在可扩展性上不高
CP: 满足一致性,分区容错性的系统,通常性能不是特别高
AP: 满足可用性,分区容错性的系统,通过对一致性要求较低
简而言之: CAP 理论描述在分布式存储系统中,最多只能满足两个需求。
1.2 CP系统
Zookeeper 就是一个典型的保证 CP的分布式应用程序协调服务。它提供了强一致性的服务,在分区容错性和可用性上做了一定折中处理,不能保证每次服务请求的可用性。任何时刻对ZooKeeper的访问请求能得到一致的数据结果,同时系统对网络分割具备容错性。但是它不能保证每次服务请求的可用性(注:也就是在极端环境下,ZooKeeper可能会丢弃一些请求,消费者程序需要重新请求才能获得结果)。所以说,ZooKeeper不能保证服务可用性。
除此之外,ZooKeeper 还会出现一种情况,当 master 节点因为网络故障与其他节点失去联系时,剩余节点会重新进行 leader 选举。问题在于,选举 leader 的时间较长,30 ~ 120 秒,且选举期间整个 zookeeper 集群是不可用的,这期间会导致注册服务瘫痪。在云部署的环境下,因网络问题导致 zookeeper 集群失去 master 节点的概率较大,虽然服务能最终恢复,但是漫长的选举时间导致注册服务长期不可用。
1.3 AP系统
Eureka 在设计上优先保证了可用性。EurekaServer 各个节点都是平等的,几个节点挂掉不会影响正常节点的工作,剩余的节点依然可以提供注册和发现服务。
而 Eureka 客户端在向某个 EurekaServer 注册或发现连接失败时,会自动切换到其他 EurekaServer 节点,只要有一台 EurekaServer 正常运行,就能保证注册服务可用,只不过查询到的信息可能不是最新的。
除此之外,EurekaServer 还有一种自我保护机制,如果在 15 分钟内超过 85% 的节点都没有正常的心跳,那么 EurekaServer 将认为客户端与注册中心出现网络故障,此时会出现一下几种情况:
EurekaServer 不再从注册列表中移除因为长时间没有收到心跳而应该过期的服务
EurekaServer 仍然能够接收新服务的注册和查询请求,但不会被同步到其他节点上
当网络稳定时,当前 EurekaServer 节点新的注册信息会同步到其他节点中
因此,Eureka 可以很好的应对因网络故障导致部分节点失去联系的情况,而不会向 Zookeeper 那样是整个注册服务瘫痪。