philly-traces：大规模DNN训练工作负载的代表性子集-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00293/article/details/146642944

philly-traces：大规模DNN训练工作负载的代表性子集

philly-traces 项目地址: https://gitcode.com/gh_mirrors/ph/philly-traces

项目介绍

philly-traces 是一个开源项目，包含了微软内部Philly集群上第一方深度神经网络（DNN）训练工作负载的代表子集。这些轨迹数据是从ATC'19论文《大规模多租户GPU集群的DNN训练工作负载分析》中描述的工作负载中提取的，并且经过了清洗和简化。该项目是微软研究院Project Fiddle的一部分。

项目中包含了一个Jupyter笔记本，用于突出轨迹的主要特征和展示如何解析这些轨迹。此外，项目提供了数据集，但要求在使用数据集进行研究时引用ATC'19论文。

项目技术分析

philly-traces 项目在技术层面上提供了详尽的集群工作负载数据，格式包括JSON和CSV。以下是项目中的关键数据结构和格式：

cluster_job_log：以JSON格式记录了每个任务的信息，包括成功调度尝试的详细信息。每个条目包含了任务状态、虚拟集群哈希值、任务ID、尝试列表、提交时间以及用户哈希值等。
cluster_gpu_util：以CSV格式提供了每分钟每个GPU的使用率记录，数据来源于nvidia-smi。
cluster_cpu_util：以CSV格式提供了每分钟每个服务器的CPU使用率记录。
cluster_mem_util：以CSV格式提供了每分钟每个服务器的内存使用率记录。
cluster_machine_list：以CSV格式列出了集群中每个服务器可用的GPU数量和每块GPU的内存。