Abstract
在过去的十年中,CNN被广泛应用作为端到端音频分类模型的主要构建块,这些模型旨在学习从音频谱图到相应标签的直接映射。为了更好地捕捉长距离的全局上下文,最近的趋势是在 CNN 之上添加自注意力机制,从而形成 CNN-注意力混合模型。然而,目前尚不清楚依赖 CNN 是否是必要的,以及仅基于注意力的神经网络是否足以在音频分类中获得良好的性能。在本文中,我们通过引入Audio Spectrogram Transformer(AST)来回答这一问题,AST 是首个不使用卷积、完全基于注意力的音频分类模型。我们在各种音频分类基准上评估 AST,结果在 AudioSet 上取得了 0.485 的 mAP、在 ESC-50 上达到 95.6% 的准确率,以及在 Speech Commands V2 上达到 98.1% 的准确率,均创下了新的最先进结果。
Introduction
在过去的十年中,CNN被广泛用于从原始谱图中学习表征,直接将音频谱图映射到相应的标签,以进行端到端建模,因为 CNN 固有的归纳偏差(例如空间局部性和平移不变性)被认为是有帮助的。为了更好地捕捉长距离的全局上下文,最近的趋势是在 CNN 之上添加自注意力机制。然而,受到纯基于注意力模型在视觉领域成功的启发,目前的问题是 CNN 是否仍然对音频分类至关重要。
为此引入Audio Spectrogram Transformer(AST),这是一个不使用卷积、完全基于注意力的模型,能够直接应用于音频谱图,并在最低层中捕捉长距离的全局上下文。此外,还提出了一种将 Vision Transformer(ViT)从