github地址:https://github.com/mlcommons/training_results_v1.1.git (手机流量可打开网址)
MLPerf Training官网:Benchmark MLPerf Training | MLCommons Version 2.0 Results
主要在A100&&A800实现以下文件夹中模型的训练及其对应的数据集处理。
MLPerf各模型微调的训练评估指标:
以bert的实现为例,bert模型测试脚本的文件夹如下所示:
该项目的bert模型使用的训练架构为pytorch,数据集为wikipedia 2020/01/01,目标为微调到bert在该数据集上的Mask-LM accuracy达到72%。
训练步骤如下:
1、准备数据集及与训练模型
该步大概分2步执行,第一步build docker,第二步在镜像中预处理数据集。根据readme的步骤操作如下:
2、修改配置文件并进行模型训练(本人使用单机8卡模式)。
备注:在bert模型中,数据集预处理的镜像与训练模型的镜像是同一个,所以不需要编译两次。其他模型可能数据集预处理的镜像与训练模型的镜像需要分别编译。