共享数据集群与卷管理器:故障处理与存储虚拟化
1. 系统与应用故障概述
系统故障通常较为明确,要么系统正常运行,要么完全无法工作。而应用故障则更具独立性,应用程序作为用户级程序,一般没有足够权限导致计算机崩溃或引发其他应用程序故障。不过,应用故障可能因各种原因难以检测。例如,一个应用程序由20个进程组成,其中5个进程陷入死锁,部分作业请求会受影响,但整个应用程序可能仍借助未受影响的15个进程持续推进。
2. 故障类型分析
- 故障安全与拜占庭故障
- 故障安全行为 :组件以避免损坏的方式失效时表现出故障安全行为。例如,熔炉温度控制器在温度测量热电偶损坏时关闭加热,或者程序在文件写入请求失败时终止运行,这些都是为避免产生错误输出而采取的安全措施。
- 拜占庭故障 :恶意运行的程序在学术文献中被称为拜占庭程序,其故障模式称为拜占庭故障。该术语源于拜占庭帝国宫廷生活的复杂性,充满阴谋诡计,难以信任他人。拜占庭故障在实践中难以检测,理论上也无法确定检测,设计容错软件成本高昂。大多数商业软件依赖幻想来防范此类故障,自身并不尝试处理,这可能是像Outlook这样的软件面对能在数小时内传播到全球数百万台计算机的病毒时无能为力的原因。
- 临时故障与永久故障
- 临时故障 :也称为瞬态故障,硬件通常能检测到瞬态故障并多次尝试操作,后续尝试中错误往往会消除。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



