提升Transformer模型效率:知识蒸馏、量化与ONNX优化实践
1. 知识蒸馏训练成果
在训练过程中,我们成功训练出了一个学生模型,其参数数量几乎只有教师模型的一半,但却达到了与教师模型相当的准确率。以下是训练过程中各轮次的训练损失、验证损失和准确率数据:
| Epoch | Training Loss | Validation Loss | Accuracy |
| — | — | — | — |
| 1 | 0.9031 | 0.574540 | 0.736452 |
| 2 | 0.4481 | 0.285621 | 0.874839 |
| 3 | 0.2528 | 0.179766 | 0.918710 |
| 4 | 0.1760 | 0.139828 | 0.929355 |
| 5 | 0.1416 | 0.121053 | 0.934839 |
| 6 | 0.1243 | 0.111640 | 0.934839 |
| 7 | 0.1133 | 0.106174 | 0.937742 |
| 8 | 0.1075 | 0.103526 | 0.938710 |
| 9 | 0.1039 | 0.101432 | 0.938065 |
| 10 | 0.1018 | 0.100493 | 0.939355 |
训练完成后,我们将模型推送到了Hub以供后续使用:
distil_trainer.push_to_hub("Training complete")
超级会员免费看
订阅专栏 解锁全文
60

被折叠的 条评论
为什么被折叠?



