集智书童 | GhostRNN:以低成本 Transformer Layer 实现 RNN 模型精简与性能提升 !

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:GhostRNN:以低成本 Transformer Layer 实现 RNN 模型精简与性能提升 !

基于长程依赖建模的循环神经网络(RNNs)在各种语音任务中得到广泛应用,例如关键词检测(KWS)和语音增强(SE)。然而,由于低资源设备的功率和内存限制,需要高效的RNN模型用于实际应用。

在本文中,作者提出了一种高效的RNN架构GhostRNN,通过廉价操作减少隐藏状态冗余。

特别地,作者观察到在训练好的RNN模型中,隐藏状态的某些部分与其他部分相似,这表明特定RNN中的冗余性。

为了减少冗余并降低计算成本,作者提出首先生成几个内在状态,然后根据内在状态应用廉价操作生成鬼状态。

在KWS和SE任务上的实验表明,提出的GhostRNN在保持性能相似的同时,显著降低了内存使用率(约40%)和计算成本。

1 Introduction

近年来,随着神经网络的快速发展,在各种语音任务上取得了显著的改进。在这些神经网络中,RNNs,例如LSTMs [1] 或 GRUs [2],在低资源设备(如手机)上的各种语音相关任务中得到广泛应用,如 KWS [3, 4, 5] SE [6],自动语音识别 [7],声学回波消除 [8, 9],等,尽管它们的并行性不如Transformer [10]。

由于在边缘设备上部署AI模型的需求很高,这些设备具有有限的功率和内存,因此设计具有低计算成本且保持高性能的 efficient 模型是可取的。在这个方向上已经做出了多种努力。Dey 和 Salem [11] 提出了一种高效的 GRU 变体,通过调整门矩阵的计算方法来减少门矩阵的大小,例如,仅以隐藏状态作为输入来计算门向量。 [12] 提出的 Light-Gated-GRU (Li-GRU) 去除了重置门,并发展成一个单门 RNN。Amoh 和 Odame [13] 提出了一个嵌入的 Gaed Recurrent Unit,它只有一个门,具有单门机制。类似于 Li-GRU,Fanta 等 [14] 在他们提出的 SITGRU 中,摒弃了 GRU 的重置门,并用 Sigmoid 替换 Tanh 的激活函数。张等人 [15] 使用双门机制压缩 RNN 模型。尽管这些方法可以有效地减少模型的参数数量,但减少门矩阵的数量可能会损害对上下文信息的探索。

在这项工作中,作者在上述先前的研究中除了门控矩阵外,还实证观察到RNN模型隐藏状态中的冗余性。因此,作者提出要充分挖掘隐藏状态的冗余性来压缩RNN,这在语音任务中尚未被研究。特别是,作者考虑了RNN模型与SE任务,并分析了RNN层中的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值