物联网设备智能推理技术全解析
1. KD训练及拓展
KD训练在手写识别和语音识别两个数据集上已证明其有效性。不过,直接模仿大模型输出对小模型而言存在挑战,且随着模型深度增加,小模型模仿大模型的难度也会增大,因为最终层的监督信号需传播到早期层。
为应对这一挑战,研究人员提出了Fitnets方法,即在中间层加入监督信号。通过比较和最小化大、小模型中间层输出的差异,小模型能在预测的中间步骤向大模型学习。这里的“小”指的是层的宽度而非深度。这种训练方法被称为提示训练,先使用提示训练预训练小模型前半部分的参数,随后采用KD训练来训练所有参数,使小模型能更好地模仿大模型各层的知识。但由于大、小模型间存在显著的容量差距,这种更积极的学习方法可能并非普遍适用。
基于前人的工作,研究人员拓展了KD的概念和应用。不再让小模型直接拟合大模型的输出,而是关注对齐两个模型层与层之间的关系。这些关系由层间的内积定义,构建一个大小为M×N的矩阵来表示这种关系,矩阵中每个元素(i, j)对应层A的第i个通道和层B的第j个通道的内积。研究人员提出了两阶段方法:首先,根据大模型的特征相似度保留(FSP)矩阵调整小模型的参数,以对齐层间关系;然后,使用原始损失函数(如交叉熵)继续微调小模型的参数,旨在保留两个模型间的特征相似度,同时维持原有的学习目标。
2. 物联网设备推理库
设备端模型的推理性能受硬件、模型和软件(如深度学习执行引擎或库)等多种因素影响。各大厂商开发了自己的深度学习库,如TFLite、Core ML、NCNN、MNN等。TensorFlow和Caffe已被其轻量级实现TFLite和PyTorchMobile所取代。
以下是一些代表性深度
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



