philly-traces:大规模DNN训练工作负载的代表性子集

philly-traces:大规模DNN训练工作负载的代表性子集

philly-traces philly-traces 项目地址: https://gitcode.com/gh_mirrors/ph/philly-traces

项目介绍

philly-traces 是一个开源项目,包含了微软内部Philly集群上第一方深度神经网络(DNN)训练工作负载的代表子集。这些轨迹数据是从ATC'19论文《大规模多租户GPU集群的DNN训练工作负载分析》中描述的工作负载中提取的,并且经过了清洗和简化。该项目是微软研究院Project Fiddle的一部分。

项目中包含了一个Jupyter笔记本,用于突出轨迹的主要特征和展示如何解析这些轨迹。此外,项目提供了数据集,但要求在使用数据集进行研究时引用ATC'19论文。

项目技术分析

philly-traces 项目在技术层面上提供了详尽的集群工作负载数据,格式包括JSON和CSV。以下是项目中的关键数据结构和格式:

  1. cluster_job_log:以JSON格式记录了每个任务的信息,包括成功调度尝试的详细信息。每个条目包含了任务状态、虚拟集群哈希值、任务ID、尝试列表、提交时间以及用户哈希值等。

  2. cluster_gpu_util:以CSV格式提供了每分钟每个GPU的使用率记录,数据来源于nvidia-smi

  3. cluster_cpu_util:以CSV格式提供了每分钟每个服务器的CPU使用率记录。

  4. cluster_mem_util:以CSV格式提供了每分钟每个服务器的内存使用率记录。

  5. cluster_machine_list:以CSV格式列出了集群中每个服务器可用的GPU数量和每块GPU的内存。

这些数据结构为研究人员提供了丰富的信息,可以用于分析大规模GPU集群的工作负载特性。

项目及技术应用场景

philly-traces 的数据集可以应用于多种场景,包括但不限于:

  • 性能分析:通过分析GPU和CPU的使用率,研究人员可以评估集群的性能和资源利用率。
  • 调度优化:了解工作负载特性和资源使用模式有助于设计更高效的调度策略。
  • 资源管理:通过分析内存使用情况,可以优化集群的资源配置,提高资源利用效率。
  • 故障诊断:通过轨迹数据,可以识别工作负载中的异常行为,进而进行故障诊断。

项目特点

philly-traces 项目具有以下显著特点:

  1. 数据完整性:提供了从2017年8月7日至2017年12月22日提交的117,325个任务的数据,数据集大小为6.6 GB,压缩后为0.98 GB。

  2. 多维度数据:数据覆盖了任务状态、GPU/CPU使用率、内存使用情况以及服务器配置等多个维度。

  3. 易用性:通过Jupyter笔记本,研究人员可以快速了解数据集的主要特征,并学习如何解析数据。

  4. 开放性:项目遵循开放数据的原则,鼓励研究人员使用和引用数据集。

综上所述,philly-traces 项目是一个宝贵的数据资源,对于研究和优化大规模GPU集群工作负载具有重要的价值。通过深入分析和应用这些数据,研究人员可以推动相关领域的技术进步。

philly-traces philly-traces 项目地址: https://gitcode.com/gh_mirrors/ph/philly-traces

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翟江哲Frasier

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值