高可用性
企业对其关键业务系统的依赖性越来越高, 系统的稳定性对整个机构甚至整个行业都起着很重大的作用, 服务器宕机或故障将会产生不可估量的损失. 系统设计和必须确保系统性能和其所提供的服务的稳定性、响应时间.
高可用集群的原理
当一个节点故障发生, 另外的节点马上接过其先管理的所有资源(包括存储空间, IP和应用程序). 他们两者处于Active/Standby来回切换的状态, 这个过程成为故障点转移(failover).
高可用集群的基本类型
共享磁盘型
集群中服务器间必须要交换数据, 数据从各个节点服务器上转移存放至以SAN或NAS连接的磁盘阵列上,实现数据处理和数据存储的分离.
对于没有集群化的系统, 使用其他服务器重启应用程序时, 客户端必须再次连接不同的IP地址; 对于集群系统, 通过分配第三方IP地址(虚拟IP地址), 因而客户端就无需区分当前对外运行的服务器是主机还是备机, 这样后台信息就对客户端屏蔽了. 配置集群的时候便是需要添加浮动IP资源了.
由于当前服务器宕机发生失效切换时, 共享磁盘上的数据没有进行妥当的结束处理就交接给待机服务器. 因此待机服务器中有必要对交接的数据进行逻辑检查. 这与一般未集群化的系统宕机后重启时进行的处理是一样的. 例如, 如果是数据库就需要回滚及前滚的处理,.由此客户端仅运行未提交的SQL 就可以继续业务.
故障发生后,立即对出故障的服务器进行隔离修复然后作为待机使用. 特殊情况下, 如果失效切换处的服务器配置不够, 双向待机(即双向互备见附图2)可能引起系超负荷等原因, 管理人员希望在原来的服务器上运行业务, 这是就涉及到故障恢复(或者说是服务器切换, 失效切换的组返回到原来的服务器), 在原来的节点恢复完成后重新作为主服务器重启业务.
附1: 故障恢复发生到恢复的过程