Meshed-memory transformer在自定义数据集的训练与调试
作者:安静到无声 个人主页
模型训练
train函数主要包含如下参数:
Argument | Possible values |
---|---|
–exp_name | 实验名字 |
–batch_size | Batch size (default: 10) |
–workers | Number of workers (default: 0) |
–m | 内存向量的数量(默认值为40) |
–head | Number of heads (default: 8) |
–warmup | 学习率调度预热值(默认值为10000) |
–resume_last | 如果使用,训练将从最后一个检查点恢复。</ |