AcmeTrace:大规模语言模型开发的数据中心工作负载追踪

AcmeTrace:大规模语言模型开发的数据中心工作负载追踪

AcmeTrace AcmeTrace 项目地址: https://gitcode.com/gh_mirrors/ac/AcmeTrace

项目介绍

AcmeTrace 是由上海人工智能实验室发布的一个开源数据集,旨在为研究人员提供从2023年3月至2023年8月期间的工作负载追踪数据。该数据集不仅包含丰富的作业信息,还提供了详细的资源利用情况,对于理解和优化数据中心内的资源分配具有重要意义。

项目技术分析

AcmeTrace 数据集涵盖了两个独立的GPU集群的作业信息,共计超过88万个作业,其中近47万个为GPU作业。数据集的核心特点如下:

  • 数据集大小:80GB(存储在HuggingFace上)
  • 作业数量:880,740个
  • GPU作业数量:470,497个
  • 跨度:6个月

数据集的结构包括作业追踪、资源利用、示例图表等多个部分,每个部分都包含不同的文件和文件夹。例如,作业追踪部分包含trace_seren.csvtrace_kalos.csv,这两个文件分别记录了两个不同集群的作业详细信息。

项目技术应用场景

AcmeTrace 数据集适用于多种研究场景,尤其是对于数据中心资源管理和大规模语言模型开发的研究。以下是几个主要的应用场景:

  1. 作业调度优化:通过分析作业的提交时间、开始时间、结束时间以及状态,研究人员可以优化调度算法,提高资源利用率。
  2. 资源利用分析:资源利用文件记录了CPU和GPU的利用率,这对于理解和优化硬件资源分配非常有用。
  3. 性能评估:通过对比不同作业的性能指标,研究人员可以评估不同硬件和配置对作业执行效率的影响。
  4. 故障诊断:作业失败的信息可以帮助研究人员快速定位和解决问题。

项目特点

AcmeTrace 数据集具有以下显著特点:

  • 全面性:数据集包含了大量的作业信息,涵盖了不同的作业类型和状态,为研究人员提供了全面的分析视角。
  • 细粒度:数据集不仅记录了作业的基本信息,还提供了每个作业的资源利用情况,使得分析更加精细。
  • 实用性:通过数据集,研究人员可以更好地理解和优化数据中心的工作负载,提高资源利用率和作业执行效率。
  • 开放性:作为开源项目,AcmeTrace 鼓励学术界的广泛使用和贡献,为相关领域的研究提供了便捷的数据源。

AcmeTrace 数据集是一个极具价值的开源项目,不仅为数据中心管理和大规模语言模型开发提供了宝贵的数据资源,也为相关领域的研究人员提供了一个交流和合作的平台。通过深入分析和利用AcmeTrace数据集,我们有望在数据中心资源管理和人工智能领域取得新的突破。

AcmeTrace AcmeTrace 项目地址: https://gitcode.com/gh_mirrors/ac/AcmeTrace

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆花钥Norma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值