数据中心设施监控与热异常检测方法解析
1. 数据中心设施监控
1.1 监控系统开发
为有效分析、可视化和解读与数据中心相关的大量流式数据,开发了一种新颖且灵活的系统。该系统用于识别和可视化数据中心内的单个指标异常和组件性能,涵盖自动元数据提取和基于物理动机的可视化,以便快速解读。
1.2 元指标应用示例
以热交换器中的水垢堆积问题为例,使用基于物理动机的元指标,将数据流处理直接与系统维护相连接。通过与系统专家讨论,确定了监控基础设施和可视化的关键优先级,包括低维护和设置开销、易于解释以及在不过度提供无关信息的情况下提供有用反馈。
1.3 模板化方法优势
采用模板化方法进行设备级元数据生成和异常检测,能显著降低维护开销,特别是在新设备上线和下线以及系统进行标准操作程序更改时。若不采用系统的模板化方法,自定义仪表盘可能很快过时,被弃用或需要大量的再培训和重新部署工作。
1.4 ML 方法考虑
在考虑部署基于机器学习(ML)的异常检测方法时,需认识到 ML 技术通常需要大量的调优才能基于给定数据流进行适当的警报,同时避免过度警报导致用户疲劳和忽视。未来将继续研究更复杂的方法,并专注于最小化开销,尽可能自动化再培训和重新部署工作。
1.5 未来工作方向
- 开发更多基于物理动机的元指标,并将其直接集成到异常检测仪表盘中。
- 继续开发历史趋势仪表盘,以更好地理解和识别长期行为趋势和漂移。
- 通过数据中心监控和控制,建立和评估下一代方法,以优化设施运营并最大限度提高能源效率。 </
超级会员免费看
订阅专栏 解锁全文
2019

被折叠的 条评论
为什么被折叠?



