ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention

最新推荐文章于 2025-08-22 19:44:06 发布

原创

最新推荐文章于 2025-08-22 19:44:06 发布 · 260 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节

阿里巴巴与南洋理工大学合作提出ACA-Net，一种利用非对称交叉注意力避免时间池化的轻量级模型。实验显示，即使参数量少，ACA-Net在WSJ0-1talker数据集上性能优于现有模型。

1. Overview

论文单位：阿里巴巴集团，南洋理工大学

核心内容：ACA-Net是一种轻量级的基于全局上下文感知信息和说话人特征的说话人辨识模型。ACA-Net利用非对称交叉注意力机制 (Asymmetric Cross Attention，即 ACA) 来代替常用的时间池化层，模型示意图见下图。ACA能够通过对key和value 大矩阵进行快速查询，将可变长度序列提取为较小的固定大小的隐层序列。

在ACA-Net中，我们使用ACA构建多层聚合模块（Multi-Layer Aggregation），从可变长度输入生成固定大小的单位向量。通过全局注意力模块，ACA-Net可以作为一个能自适应时序长短变化的高效全局特征提取器。现有说话人辨识模型使用固定函数在时间维度上进行池化，这可能会丢失一部分非平稳信号信息。我们在WSJ0-1talker 数据集上的实验表明，在仅使用 20% 的模型参数量的情况下，ACA-Net较目前最好的基线模型效果相对提升5%。

论文预印版下载地址：

https://arxiv.org/abs/2305.12121

代码下载：

github.com/Yip-Jia-Qi/ACA-Net

图1. ACA-Net 模型示意图。

ACA-Net, a lightweight, global context-aware speaker embedding extractor for Speaker Verification.

Problem statement:

1. the pooling method may obscure variability across time steps that may be important in discriminating between speakers.

2. Statistics pooling assumes that the speech signal has statistical properties that remain stationary over time, which may not always hold true.

Solution:

We propose ACA-Net, which uses Asymmetric Cross Attention (ACA) to avoid the high computational cost of self-attention while eliminating the need for temporal pooling.