加速 Transformer 推理的优化技术与权重剪枝实践
1. 基于 ONNX 的模型优化
在优化模型推理速度时,我们可以将蒸馏模型转换为 ONNX 格式进行性能测试。以下是具体操作步骤:
1. 定义优化类型并创建基准测试对象 :
optim_type = "Distillation + ORT"
pb = OnnxPerformanceBenchmark(pipe, clinc["test"], optim_type,
model_path="onnx/model.onnx")
- 运行基准测试并更新性能指标 :
perf_metrics.update(pb.run_benchmark())
- 查看测试结果 :
| 指标 | 值 |
| ---- | ---- |
| 模型大小 (MB) | 255.89 |
| 平均延迟 (ms) | 10.54 ± 2.20 |
| 测试集准确率 | 0.871 |
从结果可以看出,转换为 ONNX 格式并使用 ONNX 运行时,蒸馏模型的平均延迟大幅降低,几乎是基线模型的五倍。
接
超级会员免费看
订阅专栏 解锁全文
999

被折叠的 条评论
为什么被折叠?



