集群和分布式相关笔记

最新推荐文章于 2025-08-18 10:14:01 发布

原创最新推荐文章于 2025-08-18 10:14:01 发布 · 470 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了分布式系统的设计理念及其实现中遇到的问题，包括如何通过增加服务器数量或提升单台服务器性能来扩展集群，以及如何确保数据和服务的高可用性。此外，还介绍了减少网络开销对于提高分布式系统性能的重要性。

Docker 容器集群管理平台

Web、数据库、缓存、消息队列

虚拟机弹性能力较弱，部署效率低，人为干预较多，可靠性差
预留大量机器和服务实例，资源没有得到充分使用产生浪费
分布式系统的核心理念是让多台服务器协同工作，完成单台服务器无法处理的任务，尤其是高并发或者大数据量的任务。
所有服务器一律不要机箱；主板完全定制，只要最基本的组件，早期的定制主板连电源开关和USB接口都不要；在主板上加装隔离带把CPU单独隔出来，让冷风只吹CPU，不吹内存、硬盘等不需要降温的组件，最大限度降低冷却电力消耗。
横向可扩展性（Scale Out）是指通过增加服务器数量来提升集群整体性能。纵向可扩展性（Scale Up）是指提升每台服务器性能进而提升集群整体性能。纵向可扩展性的上限非常明显，单台服务器的性能不可能无限提升，而且跟服务器性能相比，网络开销才是分布式系统最大的瓶颈。横向可扩展性的上限空间比较大，集群总能很方便地增加服务器。而且分布式系统会尽可能保证横向扩展带来集群整体性能的（准）线性提升。
分布式系统里运行的每个应用服务都有多个运行实例跑在多个节点上，每个数据点都有多个备份存在不同的节点上。这样一来，多个节点同时发生故障，导致某个应用服务的所有实例都挂掉、或某个数据点的多个备份都不可读的概率大大降低，进而有效防止单点失效。
分布式系统的整体性能瓶颈在于内部网络开销。目前网络传输的速度还赶不上CPU读取内存或硬盘的速度，所以减少网络通讯开销，让CPU尽可能处理内存的数据或本地硬盘的数据，能显著提高分布式系统的性能。典型的例子就是Hadoop MapReduce，把计算任务分配到要处理的数据所在的节点上运行，从而避免在网络上传输数据。
分布式应用服务最好是设计成无状态。因为如果应用程序是有状态的，那么一旦服务器宕机就会使得应用服务程序受影响而挂掉，那存在内存的数据也就丢失了，这显然不是高可靠的服务。把应用服务设计成无状态的，让程序把需要保存的数据都保存在专门的存储上，这样应用服务程序可以任意重启而不丢失数据，方便分布式系统在服务器宕机后恢复应用服务。