高性能计算中云资源使用的长期预测
1. 引言
云计算在高性能计算(HPC)应用中越来越受欢迎。它能让用户在本地计算资源有限的情况下进行高级模拟,但同时也会增加成本。目前,大多数关于云资源管理和优化的研究集中在自动扩展、预测性自动扩展和短期预测,而针对 HPC 应用的长期资源使用预测研究较少。本文提出了一种使用异常检测和机器学习的方法,用于长期预测云资源使用情况,以优化资源使用并降低成本。
主要贡献如下:
- 设计了一个为 HPC 高级模拟提供长期资源使用预测的解决方案。
- 开发了一个能在长期负载变化的生产环境中运行的自适应系统。
- 使用从实际生产系统收集的数据进行评估。
- 比较了基于 XGBoost 模型的不同预测技术与统计方法的结果。
2. 相关工作
云计算资源在 HPC 应用中的使用已有很多研究:
- 有研究探讨了使用虚拟集群进行 HPC 计算,如使用 Elastic Computing Cloud(EC2),但未涉及云资源消耗的优化。
- 一些研究提出了云资源管理框架,以处理大量用户 HPC 应用请求并管理多个云资源,但缺乏对使用成本的分析和优化。
- 还有研究展示了 HPC 在 Google Cloud Platform 紧急情况处理和计算机视觉应用中的应用。
目前,云资源用于 HPC 已很常见,但缺乏针对 HPC 的长期云资源最优预留机制。大多数研究集中在自动扩展和短期预测,而长期预测的研究较少。
3. 长期云资源使用预测系统
该预测系统旨在通过预测每小时分辨率的 168 个样本资源使用指标来预测每周 CPU
超级会员免费看
订阅专栏 解锁全文
1418

被折叠的 条评论
为什么被折叠?



