MLPerf_v1.1 Training实现

github地址:https://github.com/mlcommons/training_results_v1.1.git  (手机流量可打开网址)

MLPerf Training官网:Benchmark MLPerf Training | MLCommons Version 2.0 Results

主要在A100&&A800实现以下文件夹中模型的训练及其对应的数据集处理。

MLPerf各模型微调的训练评估指标:

以bert的实现为例,bert模型测试脚本的文件夹如下所示:

该项目的bert模型使用的训练架构为pytorch,数据集为wikipedia 2020/01/01,目标为微调到bert在该数据集上的Mask-LM accuracy达到72%。

训练步骤如下:

1、准备数据集及与训练模型

该步大概分2步执行,第一步build docker,第二步在镜像中预处理数据集。根据readme的步骤操作如下:

2、修改配置文件并进行模型训练(本人使用单机8卡模式)。

备注:在bert模型中,数据集预处理的镜像与训练模型的镜像是同一个,所以不需要编译两次。其他模型可能数据集预处理的镜像与训练模型的镜像需要分别编译。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值