并行与分布式系统:云计算的基石
1. 云计算与并行分布式计算
云计算基于自第一台电子计算机用于解决计算难题以来积累的大量理念和经验。它与并行和分布式计算紧密相连,云应用采用客户端 - 服务器模式,用户机器上运行着相对简单的瘦客户端软件,而计算任务在云端执行。许多云应用是数据密集型的,会同时运行多个实例。例如基于 Web 的事务处理系统,这类应用会运行服务的多个实例,并要求消息可靠且按顺序传递。
1.1 通信协议与消息传递
通信协议在分布式系统中至关重要,它支持分布式进程的协调,并通过可能丢失消息、传递重复或失真消息的不可靠通信信道传输信息。为确保消息可靠且按顺序传递,协议会为每条消息添加序列号,接收方则会发送带有自身序列号的确认消息以确认收到。由于发送方和接收方的时钟可能不同步,这些序列号起到了逻辑时钟的作用。同时,超时机制用于请求重发丢失或延迟的消息。
1.2 检查点 - 重启机制
一致切割和分布式快照的概念是长时间计算的检查点 - 重启过程的核心。许多云计算是数据密集型的,会在云端的多台计算机上长时间运行。为应对系统故障,会定期设置检查点。当故障发生时,计算将从最后一个检查点重新开始,而非从头开始。
1.3 监控组件的作用
计算机云的许多功能依赖于监控器提供的信息,监控器是从各个系统收集状态信息的系统组件。例如,云资源管理的控制器需要准确的状态信息,而安全性和可靠性的实现也依赖于专业监控器提供的信息。应用控制器的一个关键功能是协调多个实例。
2. 并行计算
自然界表明,团队并行工作是实现共同目标的高效方式。在计算机时代早期,人们就提出了让单个
超级会员免费看
订阅专栏 解锁全文
3288

被折叠的 条评论
为什么被折叠?



