论文笔记|PID Controller-Based Stochastic Optimization Acceleration for Deep Neural Networks(一)

论文笔记|PID Controller-Based Stochastic Optimization Acceleration for Deep Neural Networks(一)

论文:sci-hub.tf/10.1109/tnnls.2019.2963066
代码:https://github.com/tensorboy/PIDOptimizer

Abstract

深度神经网络(DNNs)在计算机视觉和模式识别等领域得到了广泛的应用。然而,训练这些网络会耗费时间。这样的问题可以通过使用有效的优化器来缓解。
作为最常用的优化器之一,随机梯度下降-动量(SGD-M)使用过去
现在的梯度
进行参数更新。然而,在网络训练过程中,SGD-M可能会遇到一些缺陷,如超调现象。这个问题会减缓训练的收敛速度。为了缓解这一问题并加速DNN优化的收敛速度,我们提出了一种比例积分微分(PID)方法。

Ⅰ.Introduction

学习率是DNN训练一个主要的超参数。基于不同的选择策略的学习率,优化器款可以分为两组:
1)手工调整学习速率优化器,如随机梯度下降法(SGD) , SGD-momentum (SGD-M) , Nesterov动量等等。
2)自动学习率优化器,如AdaGrad,RMSProp , Adam等。

SGD-M方法考虑过去和现在的梯度,然后更新网络参数。虽然SGD-M在大多数情况下表现良好,但它可能会出现超调现象,即权值过多超过目标值,无法纠正其更新方向的情况。这种过度问题花费更多的资源(例如,时间和gpu)来训练一个款也妨碍了SGD-M的收敛。因此,迫切需要一种更高效的DNN优化器来缓解超调问题,实现更好的收敛。

本文提出了一种基于pid的DNN训练优化方法。与SGD-M相似,我们提出的PID优化器也考虑了网络更新的过去和现在的梯度。进一步引入了拉普拉斯变换进行超参数初始化,使方法简单有效。

论文的主要工作:
1)通过将反馈控制系统中的误差计算与网络参数的更新相结合,揭示了DNN优化与反馈系统控制之间的潜在关系。我们还发现一些优化器(如SGD-M)是PID控制装置的特殊情况。

2)我们提出了一种基于PID的DNN优化方法,考虑了梯度的过去、当前和变化信息。超参数在我们的PID优化器是由经典拉普拉斯变换初始化。

3)我们用我们提出的PID优化器在CIFAR10, CIFAR100, Tiny-ImageNet和PTB数据集上进行了系统的实验。结果表明,PID优化器比SGD-M优化器在DNN训练过程中速度更快

Ⅱ.Related Works

A.经典的深度神经网络架构

(1)CNN:卷积神经网络(CNNs)最近在视觉识别任务方面取得了很大的成功,包括图像分类[26]、目标检测[27]-[29]、场景解析[30]。最近,很多CNN架构:如VGG ResNet, DenseNet,提出了改善这些任务上面提到的性能。网络深度往往会提高网络

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值