Compressing Recurrent Neural Network with Tensor Train论文翻译

摘要

递归神经网络(RNN)是建模时间和顺序任务的热门选择,并在各种复杂问题上实现许多最新的性能。然而,大多数最先进的RNNs都有数百万个参数,并且需要大量的计算资源来训练和预测新数据。本文提出了一种基于张量列(TT)格式表示权值参数的备选RNN模型,以显著减少参数的数量。在本文中,我们实现了几种神经网络结构的tt格式表示,如简单神经网络和门控循环单元。在序列分类和序列预测任务方面,比较和评价了我们提出的RNN模型和未压缩RNN模型。我们提出的tt格式的神经网络能够在保持性能的同时,将RNN参数的数量显著减少40倍。

介绍

时序建模是机器学习中的重要课题。RNNs体系结构最近成为建模时序任务的热门选择。虽然RNNs已经被研究了大约20年[1,[2],他们最近的复苏反映了计算机硬件的改进和可用数据集的增长。语音识别[3,机器翻译[5]-17]的许多先进技术已经通过RNNs实现。
然而,大多数RNN模型都是计算昂贵的,并且有大量的参数。由于神经网络是由多个线性变换和非线性变换构成的,因此需要多个高维密集矩阵作为参数。在时间步长中,我们需要在具有高维输入的密集矩阵和之前的隐藏状态之间应用多重线性变换。特别是对于语音识别和机器翻译[5]的最新模型,如此庞大的模型只能在高端集群环境中实现,因为它们需要大量的计算能力和数百万的参数。这种限制阻碍了高效RNN模型的创建,这些模型的速度足够快,可以进行大规模实时推断,或者足够小,可以在低端设备(如手机[8]或内存有限的嵌入式系统)中实现。
为了弥补具有高效计算和内存成本的高性能先进模型之间的差距,需要在高精度模型和快速高效模型之间进行权衡。为了使模型的精度损失最小化和效率最大化,许多研究者做了大量的工作。“希顿和阿尔将一个大的深度神经网络训练成一个小的神经网络,将后者转化为前者的softmax输出。从更大的神经网络中提取知识也被成功地应用到递归神经网络结构中[111]。Denil等人[12]利用权重矩阵的低秩矩阵分解。Novikov等人最近的一项研究表明,在卷积神经网络(CNN)模型中,[13]用张量列(TT)格式[14]代替了稠密权值矩阵。使用tt格式,他们显著压缩了参数的数量,并将模型精度降低

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值