系列文章目录
文章目录
【阅读笔记】【端侧AI】A Comprehensive Benchmark of Deep Learning Libraries on Mobile Devices
阅读笔记,非全文翻译
问题
摘要
- 首次构建了一个全面的涵盖了6个代表性的DL库和15个不同DL模型的benchmark
- 然后在10个移动设备上进行了实验
- 发现:DL库的影响甚至超过了算法和硬件(模型量化、基于GPU/DSP的异构计算)带来的优化
- 总结了DLL(Libraries)
1 引言
- 嵌入DL的App数量激增
- 运行时推理(预测)是端侧DL的基本要求,工业界和学术界都在关注推理性能
- 目前文献都关注在硬件和模型,缺少了对软件(DL执行引擎或DL库)
- 构建MDLBench,6个DLL(TFLite,Pytorchmobile,ncnn,MNN,Mace,SNPE),共15个模型,10个移动设备
- 有以下发现
- 6个DLL的表现在不同模型和硬件上表现差距非常巨大
- DLL的影响超过了算法设计和硬件优化
- 集成不同DLL在算子级别(Operator Level)的最优实现,有潜力提高DLL的性能
- cold-start inference比warm inference慢很多,因为内存准备阶段的影响
- 实验中性能BUG出现很多次,1-16周才能修复
- 有以下总结
- For DL app 开发者:①选择DLL很重要;②更轻量化的模型不一定运行得更快
- for DLL 工程师和研究者:①考虑结合不同DLL库的优点;②关注冷启动问题;③动态、静态分析都需要,来定位性能bug
2 Benchmark和Methodology
MDLBench的优点如下:
-
丰富的支持
-
指标<