11、嵌入式机器学习硬件加速与MPNA加速器解析

最新推荐文章于 2025-09-09 16:55:30 发布

wine

最新推荐文章于 2025-09-09 16:55:30 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：嵌入式机器学习硬件前沿文章标签：嵌入式机器学习硬件加速器 MPNA加速器

本文链接：https://blog.youkuaiyun.com/wine/article/details/151036739

嵌入式机器学习硬件前沿专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

嵌入式机器学习硬件加速与MPNA加速器解析

1. 引言

机器学习（ML）算法已广泛应用于各个领域，如目标识别、汽车、医疗保健和商业等。其中，深度神经网络（DNNs）或深度学习近年来影响力巨大，尤其是卷积神经网络（CNNs），在精度上达到了先进水平，甚至超越了人类。随着研究的发展，更大更深的CNN模型不断涌现，因其能实现更高的精度，成为许多应用（如高级视觉处理）的关键驱动力。

然而，这些大型CNN模型通常需要巨大的内存占用、大量的计算和能源消耗。与此同时，许多ML应用正朝着移动和嵌入式平台（如网络物理系统和物联网边缘设备）发展，但嵌入式平台资源和能源受限，执行推理任务具有挑战性。例如，ResNet - 152模型执行单张图像推理需要超过200MB的内存和113亿次操作，嵌入式平台难以高效完成此类处理。因此，设计专门的硬件加速器来高效执行嵌入式系统的CNN推理至关重要。

2. 现有技术及其局限性

目前已有大量关于专门CNN加速器的研究。部分加速器旨在通过利用稀疏权重和/或激活来加速非结构化稀疏网络，以减少计算需求，提高性能和能源效率。但研究表明，采用稀疏性并不能直接节省能源，且需要更复杂的加速器设计，这会导致较高的功率、能源和面积消耗。此外，这些加速器通常使用修正线性单元（ReLU），难以高效处理不会产生高稀疏性的高级激活函数，降低了效率。

另一部分加速器则致力于加速密集网络以实现高性能和能源效率，也可通过调整数据流来加速结构化稀疏网络。然而，它们同样使用ReLU操作，在计算高级激活函数时效率低下，且大多数加速器面积较大、功耗较高，不适合嵌入式应用。此外，尽管这些加速器在卷积（CONV）层表现良好，但在全连接（FC）层的加速效果有限。 </

会员秒杀 ¥9.9 重磅福利

超级会员免费看