【文献阅读】AST: Audio Spectrogram Transformer

Abstract

在过去的十年中,CNN被广泛应用作为端到端音频分类模型的主要构建块,这些模型旨在学习从音频谱图到相应标签的直接映射。为了更好地捕捉长距离的全局上下文,最近的趋势是在 CNN 之上添加自注意力机制,从而形成 CNN-注意力混合模型。然而,目前尚不清楚依赖 CNN 是否是必要的,以及仅基于注意力的神经网络是否足以在音频分类中获得良好的性能。在本文中,我们通过引入Audio Spectrogram Transformer(AST)来回答这一问题,AST 是首个不使用卷积、完全基于注意力的音频分类模型。我们在各种音频分类基准上评估 AST,结果在 AudioSet 上取得了 0.485 的 mAP、在 ESC-50 上达到 95.6% 的准确率,以及在 Speech Commands V2 上达到 98.1% 的准确率,均创下了新的最先进结果。

Introduction

在过去的十年中,CNN被广泛用于从原始谱图中学习表征,直接将音频谱图映射到相应的标签,以进行端到端建模,因为 CNN 固有的归纳偏差(例如空间局部性和平移不变性)被认为是有帮助的。为了更好地捕捉长距离的全局上下文,最近的趋势是在 CNN 之上添加自注意力机制。然而,受到纯基于注意力模型在视觉领域成功的启发,目前的问题是 CNN 是否仍然对音频分类至关重要。

为此引入Audio Spectrogram Transformer(AST),这是一个不使用卷积、完全基于注意力的模型,能够直接应用于音频谱图,并在最低层中捕捉长距离的全局上下文。此外,还提出了一种将 Vision Transformer(ViT)从

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值