philly-traces:大规模DNN训练工作负载的代表性子集
philly-traces 项目地址: https://gitcode.com/gh_mirrors/ph/philly-traces
项目介绍
philly-traces 是一个开源项目,包含了微软内部Philly集群上第一方深度神经网络(DNN)训练工作负载的代表子集。这些轨迹数据是从ATC'19论文《大规模多租户GPU集群的DNN训练工作负载分析》中描述的工作负载中提取的,并且经过了清洗和简化。该项目是微软研究院Project Fiddle的一部分。
项目中包含了一个Jupyter笔记本,用于突出轨迹的主要特征和展示如何解析这些轨迹。此外,项目提供了数据集,但要求在使用数据集进行研究时引用ATC'19论文。
项目技术分析
philly-traces 项目在技术层面上提供了详尽的集群工作负载数据,格式包括JSON和CSV。以下是项目中的关键数据结构和格式:
-
cluster_job_log:以JSON格式记录了每个任务的信息,包括成功调度尝试的详细信息。每个条目包含了任务状态、虚拟集群哈希值、任务ID、尝试列表、提交时间以及用户哈希值等。
-
cluster_gpu_util:以CSV格式提供了每分钟每个GPU的使用率记录,数据来源于
nvidia-smi
。 -
cluster_cpu_util:以CSV格式提供了每分钟每个服务器的CPU使用率记录。
-
cluster_mem_util:以CSV格式提供了每分钟每个服务器的内存使用率记录。
-
cluster_machine_list:以CSV格式列出了集群中每个服务器可用的GPU数量和每块GPU的内存。
这些数据结构为研究人员提供了丰富的信息,可以用于分析大规模GPU集群的工作负载特性。
项目及技术应用场景
philly-traces 的数据集可以应用于多种场景,包括但不限于:
- 性能分析:通过分析GPU和CPU的使用率,研究人员可以评估集群的性能和资源利用率。
- 调度优化:了解工作负载特性和资源使用模式有助于设计更高效的调度策略。
- 资源管理:通过分析内存使用情况,可以优化集群的资源配置,提高资源利用效率。
- 故障诊断:通过轨迹数据,可以识别工作负载中的异常行为,进而进行故障诊断。
项目特点
philly-traces 项目具有以下显著特点:
-
数据完整性:提供了从2017年8月7日至2017年12月22日提交的117,325个任务的数据,数据集大小为6.6 GB,压缩后为0.98 GB。
-
多维度数据:数据覆盖了任务状态、GPU/CPU使用率、内存使用情况以及服务器配置等多个维度。
-
易用性:通过Jupyter笔记本,研究人员可以快速了解数据集的主要特征,并学习如何解析数据。
-
开放性:项目遵循开放数据的原则,鼓励研究人员使用和引用数据集。
综上所述,philly-traces 项目是一个宝贵的数据资源,对于研究和优化大规模GPU集群工作负载具有重要的价值。通过深入分析和应用这些数据,研究人员可以推动相关领域的技术进步。
philly-traces 项目地址: https://gitcode.com/gh_mirrors/ph/philly-traces
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考