深度神经网络的设计空间探索
1. 引言
深度神经网络(DNN)已经在诸如语音识别和图像处理等多个领域取得了显著进展。然而,现代DNN模型不仅在训练阶段,而且在推理阶段都需要大量的计算资源和内存。因此,在资源受限的设备(如边缘设备和物联网设备)上部署这些模型成为一项挑战性任务。为了解决这一问题,研究人员提出了许多压缩和加速DNN模型的技术。其中,低秩分解(LRF)作为一种有效的压缩技术,通过将原始张量分解为更小的张量来减少浮点运算次数和内存占用。然而,LRF面临一个巨大的设计空间,不同的解决方案在浮点运算次数、内存大小和预测准确性之间提供了不同的权衡,因此找到高效的解决方案并非易事。
2. 方法论
为了应对上述挑战,我们提出了一种实用的方法论,将DNN模型中的压缩问题表述为设计空间探索(DSE)问题。该方法论能够在合理的时间内提取出一组合适的解决方案,以减少DNN模型的内存占用和浮点运算次数,同时尽量不影响模型的准确性。以下是该方法论的主要步骤:
2.1 排除小层
第一步是从给定的DNN模型中提取并分析所有的全连接层。在所有提取的全连接层中,与模型整体内存占用相比,内存大小较小的层将被丢弃。LRF的目标是减少所需的内存大小和计算量,因此对尺寸较小的层应用LRF并不会提供显著的内存/FLOP增益。作为本工作的部分,使用了等于10%(通过实验确定)的阈值,即内存大小小于整体深度神经网络大小10%的层在我们的方法中不予考虑。
2.2 生成所有可能的LRF解决方案
在这个步骤中,使用T3F库生成所有不同的LRF解决方案。对于所有剩余的情况,将权重矩阵转换为根据张量列格式的更小尺寸张量。请注意,在我们
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



