【阅读笔记】【端侧AI】A Comprehensive Benchmark of Deep Learning Libraries on Mobile Devices

最新推荐文章于 2025-04-03 22:54:02 发布

Artistzq

最新推荐文章于 2025-04-03 22:54:02 发布

阅读量413

点赞数 1

文章标签：人工智能深度学习机器学习边缘计算

本文链接：https://blog.youkuaiyun.com/Artistzq/article/details/125778276

版权

系列文章目录

阅读笔记，非全文翻译

问题

嵌入DL的App数量激增
运行时推理（预测）是端侧DL的基本要求，工业界和学术界都在关注推理性能
目前文献都关注在硬件和模型，缺少了对软件（DL执行引擎或DL库）
构建MDLBench，6个DLL（TFLite，Pytorchmobile，ncnn，MNN，Mace，SNPE），共15个模型，10个移动设备
有以下发现
1. 6个DLL的表现在不同模型和硬件上表现差距非常巨大
2. DLL的影响超过了算法设计和硬件优化
3. 集成不同DLL在算子级别（Operator Level）的最优实现，有潜力提高DLL的性能
4. cold-start inference比warm inference慢很多，因为内存准备阶段的影响
5. 实验中性能BUG出现很多次，1-16周才能修复
有以下总结
1. For DL app 开发者：①选择DLL很重要；②更轻量化的模型不一定运行得更快
2. for DLL 工程师和研究者：①考虑结合不同DLL库的优点；②关注冷启动问题；③动态、静态分析都需要，来定位性能bug