ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention

阿里巴巴与南洋理工大学合作提出ACA-Net,一种利用非对称交叉注意力避免时间池化的轻量级模型。实验显示,即使参数量少,ACA-Net在WSJ0-1talker数据集上性能优于现有模型。

1. Overview

论文单位:阿里巴巴集团,南洋理工大学

核心内容:ACA-Net是一种轻量级的基于全局上下文感知信息和说话人特征的说话人辨识模型。ACA-Net利用非对称交叉注意力机制 (Asymmetric Cross Attention,即 ACA) 来代替常用的时间池化层,模型示意图见下图。ACA能够通过对key和value 大矩阵进行快速查询,将可变长度序列提取为较小的固定大小的隐层序列。

在ACA-Net中,我们使用ACA构建多层聚合模块(Multi-Layer Aggregation),从可变长度输入生成固定大小的单位向量。通过全局注意力模块,ACA-Net可以作为一个能自适应时序长短变化的高效全局特征提取器。现有说话人辨识模型使用固定函数在时间维度上进行池化,这可能会丢失一部分非平稳信号信息。我们在WSJ0-1talker 数据集上的实验表明,在仅使用 20% 的模型参数量的情况下,ACA-Net较目前最好的基线模型效果相对提升5%。

论文预印版下载地址:

https://arxiv.org/abs/2305.12121

代码下载:

github.com/Yip-Jia-Qi/ACA-Net

图1. ACA-Net 模型示意图。

ACA-Net, a lightweight, global context-aware speaker embedding extractor for Speaker Verification.

Problem statement:

1. the pooling method may obscure variability across time steps that may be important in discriminating between speakers.

2. Statistics pooling assumes that the speech signal has statistical properties that remain stationary over time, which may not always hold true.

Solution:

We propose ACA-Net, which uses Asymmetric Cross Attention (ACA) to avoid the high computational cost of self-attention while eliminating the need for temporal pooling.

2. Methodology

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值