基于遗留系统的容错分布式系统解析
1. 引言
在基于商用现货(COTS)和遗留系统的基础设施中,诊断工作至关重要。它需要评估单个组件的状态或损坏程度,以便确定最合适的故障处理和系统重新配置操作及其应用时机。这就要求仔细收集和处理有关错误症状和故障模式的数据,单次诊断往往是不够的,需要一种能收集数据流并通过观察组件随时间的行为来过滤数据的方法。
2. 背景知识
2.1 相关研究背景
过去有大量研究致力于通过分布式架构框架为现有应用提供可靠性支持。这些项目在很多方面存在差异,比如容错机制的类型(硬件、软件或两者结合)以及对应用层的透明程度(应用感知或无感知方法)。一些项目专注于错误处理,但对故障处理的关注有限。也有一些商业产品声称具备容错功能。
曾经提出过一个基于中间层的架构框架,用于提高遗留应用的可靠性,并在分布式异构平台上进行了测试。初步分析表明,需要更有效的故障处理支持来显著提高系统的可靠性水平,因此开始研究基于COTS和遗留系统应用的诊断问题。
2.2 案例应用介绍
案例应用是一个多层应用,由用C语言编写的遗留代码组成,使用PostgreSQL作为商用现货数据库管理系统(COTS DBMS)进行稳定存储。它运行在类Unix内核上,数据库物理文件存储在磁盘上,服务主要分为查询和更新两类。
考虑的故障类型主要有:
- 硬件引发的故障 :源于底层硬件平台的不稳定,主要关注间歇性故障。
- 软件错误 :包括应用程序和软件基础设施中的缺陷,主要关注如内存泄漏、系统资源耗尽等“微妙”
超级会员免费看
订阅专栏 解锁全文
714

被折叠的 条评论
为什么被折叠?



