【论文学习】ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation

ECAPA-TDNN：说话人识别的通道注意力与统计池化增强

原创

已于 2023-05-09 16:06:23 修改 · 3.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#说话人识别 #说话人验证 #深度学习

于 2023-05-09 14:27:36 首次发布

ECAPA-TDNN是一种改进的说话人识别架构，它通过引入依赖于通道和上下文的统计池、1维Squeeze-ExcitationRes2Blocks以及多层特征聚合与求和，提升了说话人嵌入的提取效果。实验显示，这种方法在VoxCeleb测试集和VoxSRC2019挑战赛上显著优于基于TDNN的现有系统，平均降低了EER和MinDCF的错误率。

ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation

摘要

目前的说话人验证技术依赖于神经网络来提取说话人的表征。成功的x-vector架构是一个时延神经网络(TDNN)，它应用统计池化将变长语句投影到表征嵌入的定长说话人中。本文基于人脸验证和计算机视觉相关领域的最新趋势，对该架构提出了多种增强。首先，将初始帧层重构为具有有效跳跃连接的1维Res2Net模块；与SE-ResNet类似，在这些模块中引入了挤压和激发块，以显式地对通道相互依赖性进行建模。SE块根据记录的全局特性重新缩放通道，扩展帧层的时间上下文。其次，众所周知，神经网络可以学习分层特征，每一层的复杂度都不同。为了利用这些互补的信息，我们聚合和传播不同层次的特征。最后，我们利用信道相关的帧注意对统计池模块进行了改进。这使得网络在每个信道的统计估计期间专注于不同的帧子集。提出的ECAPA-TDNN架构在VoxCeleb测试集和2019年VoxCeleb说话人识别挑战赛上的表现明显优于最先进的基于TDNN的系统。

关键词

说话人识别，说话人验证，深度神经网络，x-vectors，通道注意力

1 介绍

近年来，x-vectors[1]及其后续改进[2,3,4]一直在说话人验证任务上提供了最先进的结果。对原始时滞神经网络(TDNN)架构的改进是一个活跃的研究领域。通常，神经网络是针对说话人识别任务进行训练的。收敛后，可以从输出层之前的瓶颈层提取低维说话人嵌入，以表征输入录音中的说话人。说话人验证可以通过比较与登记和测试录音相对应的两个嵌入来完成，以接受或拒绝两个录音包含相同说话人的假设。我们可以使用一个简单的余弦距离来进行比较。此外，还可以训练更复杂的评分后端，如概率线性判别分析(PLDA)[5]。

x-vector系统的日益流行导致了显著的架构改进和比原始方法更优化的训练过程[6]。系统的拓扑结构通过加入流行的ResNet[7]架构的元素而得到改进。在帧级层之间添加残差连接已被证明可以增强嵌入[3,4]。此外，残差连接使反向传播算法收敛更快，有助于避免梯度消失问题[7]。

x-vector系统中的统计池化层通过跨时间收集隐藏节点激活的简单统计信息，将变长输入投影到固定长度的表示中。[8,9]中的作者为这个池化层引入了一个时间自注意力系统，它允许网络只关注它认为重要的帧。它也可以解释为语音活动检测(VAD)的预处理步骤，以检测无关的非语音帧。

本文提出对TDNN架构和统计池化层的进一步架构增强。我们引入了额外的跳跃连接来在整个系统中传播和聚合通道。使用全局上下文的通道注意力被纳入帧层和统计池化层中，以进一步改善结果。

本文的结构如下：第2节将描述当前最先进的说话人识别系统，这些系统将被用作基线。第3节将解释并引出我们所提出的架构的新颖组件。第4节将解释我们的实验设置，以测试我们的架构中各个组件对流行的VoxCeleb数据集[10,11,12]的影响。我们将在第5节讨论这些实验的结果。此外，还将提供流行的最先进基线系统之间的比较。第6节将简要概述我们的发现。

2 DNN说话人识别系统

两种基于DNN的说话人识别架构将作为强有力的基准来衡量我们提出的架构的影响：x-vector和基于ResNet的系统，它们目前都在VoxSRC[12]等说话人验证任务上提供了最先进的性能。

2.1 Extended-TDNN x-vector

第一个基线系统是扩展的TDNN x-vector架构[2,3,4]，它改进了[1]中引入的原始x-vector系统。初始帧层由一维扩张卷积层与密集层交织组成。每个滤波器都可以访问前一层或输入层的所有特征。扩张卷积层的任务是逐步建立时间上下文。在所有帧层中引入残差连接。帧层之后是一个带注意力的统计池化层，计算最终帧级特征的均值和标准偏差。注意力系统[8]允许模型选择它认为相关的帧。在统计池化后，引入2个全连接层，以第1层作为瓶颈层生成低维说话人特征嵌入。

2.2 基于ResNet的r-vector

第二个基线系统是[4]中提出的r-vector系统。它基于成功的ResNet架构[7]的ResNet18和ResNet34实现。该网络的卷积帧层在池化层收集均值和标准差统计之前，将特征处理为二维信号。有关拓扑的更多详细信息，请参见[4]。

3 提出的ECAPA-TDNN架构

在本节中，我们将研究x-vector架构的一些限制，并在我们的ECAPA-TDNN架构中纳入潜在的解决方案。下面的小节将重点介绍帧级和池级的增强。图2给出了完整架构的概述。BN表示批量归一化[13]，除非另有说明，否则非线性为修正线性单元(ReLU)。

图2：ECAPA-TDNN的网络拓扑结构。

图2：ECAPA-TDNN的网络拓扑结构。我们用 $k$ 表示核大小， $d$ 表示Conv1D层或SE-Res2Blocks的膨胀间隔。 $C$ 和 $T$ 分别对应中间特征映射的通道维度和时间维度。 $S$ 是训练集说话人的数量。

3.1 依赖于通道和上下文的统计池

在最近的x-vector架构中，软自注意力被用于计算时间池化层[8]中的加权统计。多头注意力的成功应用表明，可以在不同的帧集上提取出说话人的某些特性[9]。鉴于这些结果，本文认为将这种时间注意力机制进一步扩展到通道维度可能是有益的。这使得网络能够更多地关注在相同或相似的时间实例上不会激活的说话人特征，例如元音的特定说话人属性和辅音的特定说话人属性。

我们实现了[8]中描述的注意机制，并将其调整为依赖于通道：

$e_{t,c}=v_c^T f(Wh_t+b)+k_c, \tag{1}$

其中 $h_t$ 为时间步 $t$ 时最后一帧层的激活量。参数 $\in \mathbb{R}^{R×C}$ 和 $\in \mathbb{R}^{R×1}$ 将自注意力信息投影到更小的 $R$ 维表示中，该表示在所有 $C$ 通道中共享，以减少参数数量和过拟合风险。在非线性 $f(\cdot)$ 之后，该信息通过权重 $v_c \in \mathbb{R}^{R×1}$ 和偏置 $k_c$