CAP理论

CAP理论是分布式计算的基础,指出一个系统无法同时保证一致性(C)、可用性(A)和分区容错性(P)三项。通常,分区容错性被认为是必要的,因此在C和A之间进行权衡。一致性关乎所有节点数据同步,可用性则确保服务始终响应。分布式系统如Redis、HBase和ZK常倾向于CP,而NoSQL数据库通常选择AP,牺牲一致性以保证高可用性。TiDB是结合ACID和BASE理念的分布式SQL数据库,适用于大规模场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是CAP

cap理论是在2000年7月份由Eric Brewer教授在ACM会议上提出的。两年后,麻省理工学院的Seth Gilbert和Nancy Lynch从理论上证明了CAP。从此,CAP理论成为了分布式计算领域的非常重要的理论。

cap分别代表的含义是:一致性(Consistency),可用性(Availability),分区容错性(Partition tolerance)。

CAP理论概述

cap理论是这样的:一个分布式系统最多只能同时满足一致性,可用性和分区容错性这三项中的两项,然而,分区容错性一般是不可缺少的,所以最终一般是在一致性和可用性之间进行权衡。

一致性(C)

一致性,就是说的是数据一致性,官方是这样解释的:all nodes see the same data at the same time。在分布式系统中所有的节点在同一时刻是否是同样的值,所以此处说的就是数据一致性。

可用性(A)

可用性是针对服务而言,官方解释:reads and writes always succeed。即使分布式系统出现部分节点故障也能提供正常的读写服务。

对于一个可用性的分布式系统,可用性要求是非常高。我们一般在衡量一个系统的可用性的时候,一般都会说是6个9,5个9等等,一般没有人敢说100%,也就是说是通过停机时间来计算的。

业界经常说淘宝的系统可用性可以达到5个9,也就是说99.999%,也由此能算出全年的停机时间不超过(1-0.99999)*365*24*60 = 5.256,这个值是说的分钟数,全年服务不可用的时间不超过5.256分钟,这是一个极高的要求。

分区容错性(P)

官方解释:the system continues to operate despite arbitrary message loss or failure of part of the system。即分布式系统在遇到节点故障或者网络分区故障的时候,让然能够对外提供满足一致性和可用性的服务;例如,在网络中断,消息丢失的情况,系统如果还能正常工作,那这个系统的分区容错性就是比较好的。

CA没有P?

这种情况对于分布式系统基本上是不存在的,因为在分布式环境下,网络分区是一个必然的事实;因为分区是必然的,所以如果舍弃P,意味着就是舍弃分布式系统,那也就没有必要讨论CAP理论了;从谷歌的经验来讲,是无法降低CA来提升P的,要想提升分区容错性,需要通过提升基础设施的稳定性来保证。

如果系统可以没有P,则C和A是可以保证的。但是,在分布式系统中分区不管你想不想,它是始终存在的,因此CA的系统更多的是允许分区后跟个子系统依然保持CA。

CP没有A?

如果系统对A没有强要求,相当于每一个请求都要主从或者主副本保持一致,而P的存在会导致时间加长,这样CP就是可以保证的。很多传统的数据库分布式事务都是属于这种模式。

其中很典型的场景,像很多分布式数据库Redis,HBase,还有分布式系统中常用的ZK,都是有限保证ZK的。

AP没有C?

要高可用并允许分区,则需要放弃一致性。一旦分区出现,或者有了副本,节点之前可能会失去联系,这样可能会导致数据的不一致性,现在很多的NoSQL都属于此类。

CAP理论的证明

像前文所说,该理论由Brewer提出,并且两年后由Gilbert和Lynch证明了此理论;但是他们只是证明了CAP三者不能同时满足,并没有其中任意的两者都可满足的问题。

Gilbert和Lynch的证明相对比较简单,他们是采用反证法进行论证的,假设三者同时满足,但是因为是分布式系统必须得有P的存在,一定会存在服务器之间的丢包,这样的话就不会保证C了,可以说是证明的非常简洁;说明了要满足分区容错性的分布式系统,只能在C和A之间进行选择。

扩展阅读

CAP、BASE、ACID

eBay的架构师在CAP的基础上提出了BASE理论,他的核心思想是无法做到强一致性(CAP中的C就是强调的强一致性),但是可以采用其他的方式达到最终一致性;而BASE的含义就是:Basically Available(基本可用),Soft State(软状态),Eventual Consistency(最终一致性)。

ACID是传统数据库的设计理念,追求强一致性;BASE是支持大型分布式系统,通过牺牲强一致性获得高可用性,是截然相反的两种形态。

TiDB

TiDB 是国内 PingCAP 团队开发的一个分布式 SQL 数据库。其灵感来自于 Google 的 F1, TiDB 支持包括传统 RDBMS 和 NoSQL 的特性。

我们最近也在使用了TiDB,之前看过的一篇文章,说分库分表是一种无奈的选择,说的挺有道理,在分库分表的场景的时候,可以考虑使用TiDB这个分布式数据库,可以解决大部分的问题。

总结

CAP理论是分布式领域的重要理论,对于如何取舍,要看具体的场景想要关注什么。

欢迎各位同学一起讨论。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值