硬件感知的神经网络架构搜索
1. 引言
深度神经网络在许多应用领域展现出了巨大的潜力,但设计优秀的神经网络模型却颇具难度。这是因为具体问题及其数据集与深度神经网络(DNN)模型性能之间的关系并不明确。
在计算机视觉领域,人们常采用通用的大型现成模型,并针对自身应用进行微调。然而,当输入数据的类型和格式较为特殊(如时间序列数据)时,这种方法就不可行了,因为此时并没有通用且合适的模型。此外,通用模型往往对于当前问题而言过大,即便采用后处理方法在训练后降低模型的计算需求,也难以完全解决问题。
若要从头开始设计模型,首先需要明确处理的输入数据类型,如 2D/3D 图像、时间序列、名义数据、有序数据等,以及分类、回归、翻译等任务所需的输出类型。这会影响许多设计选项,例如卷积层适用于处理图像数据,softmax 激活函数适用于分类任务等。即便选好了 DNN 的构建模块,在 DNN 拓扑结构、训练过程(如优化器、学习率)、数据预处理(如增强、嵌入)等方面仍有大量设计选择。而且,即便尝试了许多设计选项,仍可能遗漏某个强大的超参数,从而错过大幅提升模型性能的机会。
手动设计的另一个问题是,往往只关注单一性能指标,如模型准确率,而忽略了模型运行时间和对数据集分布变化的鲁棒性等其他属性。如果模型要部署在不同的硬件平台上,情况会更加复杂,因为还需要考虑一系列新的性能问题。鉴于手动设计难以找到针对单一目标优化的模型,对于多目标设计而言,手动设计更是几乎不可能实现。因此,需要某种自动化方法来寻找不仅适用于应用性能,还能兼顾目标硬件或输入质量变化等其他方面的设计,而神经网络架构搜索(NAS)就能提供这种自动化。它是一种在庞大的神经网络设计空间中进行导航的方法。下面将介绍如何基于进化搜索从头
超级会员免费看
订阅专栏 解锁全文
786

被折叠的 条评论
为什么被折叠?



