AST:Audio Spectrogram Transformer

本文介绍了AST模型,一种无卷积、仅基于注意力机制的音频分类方法。该模型在多个音频分类任务上取得最佳性能,支持可变长度输入,且结构简单、参数少、收敛快。通过ImageNet预训练和适应性位置编码调整,AST在AudioSet等数据集上实现State-of-the-Art(SOTA)效果。研究还进行了消融实验,验证了预训练、位置编码策略和patch尺寸等因素对模型性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在这里插入图片描述

0. Abstract

该文发表于Interspeech2021。
进来,CNN网络作为主要模块,广泛应用于端到端的语音分类模型中,旨在学习从音频频谱图到对应标签的直接映射。为了更好地捕获远距离全局依赖性(上下文),最近的发展趋势是在CNN之上增加自注意力机制,形成CNN-注意力混合模型。但是,目前尚不清楚单独的使用CNN模型或者注意力网络模型就足以在音频分类中获得良好的性能。
本文的主要工作就是提出了首个无卷积、 单纯基于注意力机制的音频分类模型(借鉴ViT那套做法),本文在多个音频分类任务上进行了评测,均实现了SOTA性能。

1. Introduction

本文提出了AST: Audio Spectrogram Transformer, a convolution-free, purely attention-based model。
AST模型的优势:

  • AST模型在多个分类任务和数据集上获得了最佳性能;
  • AST支持可变长度的输入,并且可以在不改变网络架构的情况下应用于不同的任务;
  • 与当前性能最好的CNN-attention混合模型相比,AST具有更简单的架构,更少的参数量,在训练中收敛更快。

2. Audio spectrogram transformer

2.1 Model architecture

在这里插入图片描述
图1展示了AST网络架构,首先将t秒时长的语音片段转换为128维的log梅尔谱特征,采用Hamming窗,窗长25ms,hop_size为10ms。得到大小为128 X 100t的谱图,输入到AST中。之后,将谱图分割成N个大小为16 X 16的patches,在时间和频率维度上的重叠打下为6,得到 N = 12 ⌈ ( 100 t −

Transformer架构在处理序列数据方面展现出了卓越的能力,并不仅限于文本领域,在音频处理中也得到了广泛应用。AST (Audio Spectrogram Transformer) 模型就是专门为应对音频任务而设计的一种基于Transformer的创新方案。 ### AST模型简介 AST的核心思想在于将音频信号转换成频谱图后再送入到Transformer网络中去进行进一步地分析与理解。这样做有几个关键优点: 1. **从时间域转向频率域**:通过傅里叶变换等手段可以有效地提取出声音中的频率信息,这对于捕捉语音特征尤其重要; 2. **利用了预训练的优势**:该模型能够先在一个大型通用音频数据库上做无监督学习,然后再针对特定下游任务(如情感识别、场景分类)微调参数; 3. **保持了Transformer结构的优点**:比如全局注意力机制使得它可以在长时序的数据间建立联系;同时并行化的计算过程大大提高了效率。 ### 技术细节 - 输入部分采用梅尔频谱系数(Mel-Spectrogram),这是因为人耳对不同频率范围敏感度不一样,梅尔刻度更贴近人类听觉系统特性。 - 编码层由多个自注意编码单元堆叠而成,每个单元内部包含Multi-head Self-Attention 和 Feed Forward Neural Network两个子模块,用于抽取复杂的模式特征。 - 输出则取决于具体的任务需求,可能是分类标签预测或是连续值回归结果等等。 这种架构的设计让AST能够在多种多样化的音频应用场景下取得非常好的效果,例如音乐推荐、声纹验证等领域都展示了强大的潜力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aidanmomo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值