云计算时代的系统管理与网络监控
1. 复杂应用的非侵入式监控与修复
随着计算机在工作、娱乐等人类活动各领域的广泛渗透,确保系统持续运行成为重大挑战,因为越来越多的应用需要不间断计算,且常有时效要求。但计算机系统功能的增加和普及带来了复杂性的提升,众多(异构)软件组件、硬件分布、配置依赖等因素,加上很多组件是黑盒(如商用现货或遗留应用),使得解决复杂系统(尤其是企业和分布式系统)的故障或性能瓶颈极为困难且成本高昂。
系统维护如软件更新、重新配置或基础设施替换会导致系统变化,可能引发服务中断、功能或性能下降,进一步增加了保障系统可靠、不间断运行的难度。例如,大型高科技公司如 SAP 超 40% 的收入来自软件维护。
复杂系统维护面临诸多难题:
- 部分系统只能短时间离线或无法离线。
- 由于遗留、商用现货或复杂性问题,应用级调试和代码更改常不可行。
- 配置和更新错误可能对可用性和用户体验造成灾难性影响。
- 一些问题(如软件更新或老化相关问题)仅在部署场景中出现,无法在“沙盒”中重现。
- 系统复杂度和异构性增加,故障诊断和性能建模难度增大。
为解决这些问题,需要能处理部分黑盒系统的解决方案和实践,消除或降低因系统维护或变更导致的服务中断或功能下降风险。应开发系统监控、故障解决、性能优化、软件更新等方面的自管理技术,重点关注开销、成本和实用性。具体的解决方案需考虑生产系统的约束:
- 故障和性能监控的开销要最小化。
- 代码级调试和错误修复在很多情况下不切实际或不可行。
- 软件/配置更改或更新可能导致性能或功能下降。
相关方法和领域大致可分为监控/分析、系统修复
超级会员免费看
订阅专栏 解锁全文
18万+

被折叠的 条评论
为什么被折叠?



