AcmeTrace:大规模语言模型开发的数据中心工作负载追踪
AcmeTrace 项目地址: https://gitcode.com/gh_mirrors/ac/AcmeTrace
项目介绍
AcmeTrace 是由上海人工智能实验室发布的一个开源数据集,旨在为研究人员提供从2023年3月至2023年8月期间的工作负载追踪数据。该数据集不仅包含丰富的作业信息,还提供了详细的资源利用情况,对于理解和优化数据中心内的资源分配具有重要意义。
项目技术分析
AcmeTrace 数据集涵盖了两个独立的GPU集群的作业信息,共计超过88万个作业,其中近47万个为GPU作业。数据集的核心特点如下:
- 数据集大小:80GB(存储在HuggingFace上)
- 作业数量:880,740个
- GPU作业数量:470,497个
- 跨度:6个月
数据集的结构包括作业追踪、资源利用、示例图表等多个部分,每个部分都包含不同的文件和文件夹。例如,作业追踪部分包含trace_seren.csv
和trace_kalos.csv
,这两个文件分别记录了两个不同集群的作业详细信息。
项目技术应用场景
AcmeTrace 数据集适用于多种研究场景,尤其是对于数据中心资源管理和大规模语言模型开发的研究。以下是几个主要的应用场景:
- 作业调度优化:通过分析作业的提交时间、开始时间、结束时间以及状态,研究人员可以优化调度算法,提高资源利用率。
- 资源利用分析:资源利用文件记录了CPU和GPU的利用率,这对于理解和优化硬件资源分配非常有用。
- 性能评估:通过对比不同作业的性能指标,研究人员可以评估不同硬件和配置对作业执行效率的影响。
- 故障诊断:作业失败的信息可以帮助研究人员快速定位和解决问题。
项目特点
AcmeTrace 数据集具有以下显著特点:
- 全面性:数据集包含了大量的作业信息,涵盖了不同的作业类型和状态,为研究人员提供了全面的分析视角。
- 细粒度:数据集不仅记录了作业的基本信息,还提供了每个作业的资源利用情况,使得分析更加精细。
- 实用性:通过数据集,研究人员可以更好地理解和优化数据中心的工作负载,提高资源利用率和作业执行效率。
- 开放性:作为开源项目,AcmeTrace 鼓励学术界的广泛使用和贡献,为相关领域的研究提供了便捷的数据源。
AcmeTrace 数据集是一个极具价值的开源项目,不仅为数据中心管理和大规模语言模型开发提供了宝贵的数据资源,也为相关领域的研究人员提供了一个交流和合作的平台。通过深入分析和利用AcmeTrace数据集,我们有望在数据中心资源管理和人工智能领域取得新的突破。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考