1.基于小波时频图特征在声音场景分类
2.增强增强高效音频分类网络
https://arxiv.org/pdf/2204.11479v5
https://github.com/Alibaba-MIIL/AudioClassfication
音频分类网络如图4所示。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。可以将网络分解为两个主块、1D卷积堆栈和变换器编码器块。前者沿时间轴进行降采样
其中卷积层耦合到固定低通滤波器[29,30],然后是间歇残差块[18]。这个残差块根据[31]进行修改,由深度卷积和大核操作组成f(x)是跨通道操作的核大小等于1的卷积。此时,信号
使用一系列因子di除以总因子d进行抽取=Qdi例如,5秒的信号下采样序列的持续时间等于[4,4,4,4],执行256倍的缩减。这可能是为了在某种程度上与频谱图操作期间进行的下采样有关。以下构建块执行进一步减少,每次减少后都有一堆扩张的残余块[32]。这种改进能够提高在每帧的感受野中,因此对环境类中的可变持续时间事件更具鲁棒性声音场景。使用变压器编码器块实现了跨帧收集特征图,该块然后是全连接层,将嵌入向量投影到类空间。

3.PANNs:大规模预训练音频神经网络音频模式识别
https://arxiv.org/pdf/1912.10211v


最低0.47元/天 解锁文章
511






