zookeeper_分布式系统及其挑战

桃仙人

于 2023-02-25 12:12:57 发布

阅读量164

点赞数

分类专栏： zookeeper 文章标签： java-zookeeper zookeeper 网络

本文链接：https://blog.youkuaiyun.com/dongkang123456/article/details/129214105

版权

zookeeper 专栏收录该内容

1 篇文章

订阅专栏

文章介绍了分布式系统从集中式系统发展而来的原因，强调了网络不可靠性、部分失效、时钟同步和故障检测等问题。分布式系统需要通过软件解决这些问题，例如使用超时机制检测故障，依赖单调时钟进行时间间隔测量，并通过锁服务如Zookeeper来管理资源访问，防止并发冲突。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从集中式到分布式

首先我们来思考一下，什么是 “分布式系统”？

要了解分布式系统，必须先了解集中式系统。在20世纪60年代，计算机科学家们为了解决 "大规模计算"问题，大型主机(由上万个cpu构成一个超级大的计算机)被研发出来，由于其卓越的性能和良好的稳定性，集中式计算系统成为了那个时代的骄子。

但是随着计算机网络的发展，集中式计算系统越来越不能适应人们的需求。

首先大型主机、大型主机人才的培养成本是非常之高的；且集中式有明显的单点问题，一旦大型机出现问题，那么构建在其上的所有软件系统都将不可用。

基于上面的原因和网络的发展，分布式系统的概念被提出和使用。

分布式计算系统： 由很多通用计算机(廉价)，通过IP以太网链接，构成一个庞大的计算集群，然后按需分配资源。这些机器可以分布在不同的机架、不同的机房和不同的城市之中。

分布式系统，必然会面临部分失效的问题，这就需要依靠软件系统来提供容错机制。换句话说，我们需要在不可靠的组件之上构建可靠的系统。

下面我们将针对在构建分布式系统的过程中，可能会出现那些问题来进行探讨。

故障和部分失效

单机系统上的程序要么正常工作，要么彻底出错。

但是在分布式系统中，系统可能会有一部分节点正常工作，而另外一部分节点停止运行。

难点在于部分失效是不确定的。因为你不知道是网络问题，还是另外节点上面的服务已经挂掉。所以分布式系统不好做出对应的响应措施。

我们将这种现象称作 “部分失效”。

不可靠的网络

大多数时候我们讨论的分布式系统都是无共享的分布式系统，即通过网络连接多个节点，而不是一台机器直接访问另一台机器的内存和磁盘，除非通过网络向对方发出请求。

我们通过网络构建了分布式系统，那么在网络传输过程中会出现什么问题了？

1、请求可能已经丢失(比如有人拔掉了网线)。

2、请求正在某个队列中等待，无法马上发送。

3、远程接收节点已经挂掉。

4、远程接收节点完成了请求处理，但回复确在网络中丢失(如网络交换机配置错误)。

网络问题多种多样，多以我们必须学会基于不可靠的组件构建可靠的系统。


在计算机技术中，基于不可靠的组件构建可靠的系统的案例，不胜枚举。

1、纠错码的使用：通过纠错码在各种通信链路上传输数据。

2、TCP协议：在IP之上提供了更加可靠的传输层，保证丢失的数据被重传，消除重复包...

因此，在分布式系统中网络虽然偶尔不可靠，但是我们要尽可能在软件层面消除这种不可靠的因素。

正是因为网络的不可靠，故障检测就显得尤为重要。或者可以说故障检测是分布式系统必须要实现的功能。大多数的分布式系统都是通过超时机制来实现故障检测的。

所谓超时机制，即在等待一段时间之后，如果仍然没有收到回复信息，则认为检测节点出现故障。

超时时间的设置并不是一个不变的常量，而是要根据测量选择合适的超时时间。因为不同环境的响应时间是不相同的。影响网络请求时长的原因多种多样，如当数据包到达目标节点之后，如果CPU所有的核都处于繁忙状态，则该网络请求会被操作系统排队，直到应用程序能够处理。