MFA-Conformer

最新推荐文章于 2024-08-23 11:24:18 发布

原创

最新推荐文章于 2024-08-23 11:24:18 发布 · 848 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #人工智能

文章介绍了一种新的声纹识别模型MFA-Conformer，通过Conformer结合多尺度特征融合，提升了识别性能和推理速度。与ECAPA-TDNN相比，MFA-Conformer在Voxceleb等数据集上表现出色，且在实际业务中取得了显著效果。

基于多尺度特征聚合Conformer说话人识别模型的创新与应用

论文：https://arxiv.org/abs/2203.15249

代码：GitHub - zyzisyz/mfa_conformer

收录于 INTERSPEECH 2022

1. 简介

本文由清华大学与腾讯科技（北京）有限公司、台湾大学及香港中文大学合作。提出了一种基于Conformer的多尺度特征融合的说话人识别模型（MFA-Conformer），通过融合各层不同尺度的特征，增强说话人特征的表征能力。实验表明，与目前主流的声纹识别网络ECAPA-TDNN相比，本文所提出的MFA-Conformer在识别性能和推理速度上都有大幅提升。该工作在腾讯科技有限公司的合作业务部门落地上线，新模型上线后实现了业务准确率20-40个点的巨大提升，节省线上服务资源30%。论文投稿半年收到12点谷歌学术引用。在工业和学术领域均产生了一定的影响力。

2. 背景动机

当前业内主流的说话人模型，如x-vector、r-vector、ECAPA-TDNN等，主要基于卷积神经网络构建。卷积神经网络可以很好地建模语音信号中局部特征（如pronunciation pattern），但很难有效建模语音的长程时序关系。与此相反，RNN/LSTM或者Transformer等时序模型可以有效捕捉到上下文信息，但较难学习到丰富的局部信息。因此，如何更好地实现局部特征和全局上下文信息统一建模，是当前声纹识别领域的研究热点之一。

3. 贡献

本文探索了端到端语音识别领域最主流的网络结构Conformer在声纹识别任务中的应用，提出了一种基于Conformer的多尺度特征融合的说话人识别模型（Multi-scale Feature Aggregation Conformer, MFA-Conformer）。

MFA-Conformer的设计受端到端语音识别网络Conformer和说话人识别网络ECAPA-TDNN的启发：其首先使用一个卷积降采样模块对输入的声学特征进行降采样，从而降低模型运算量；随后使用多个不同的Conformer块进行局部特征和全局特征的学习；最后将不同Conformer块的输出进行拼接，并通过一个注意力统计池化层（Attentive Statistics Pooling）提取说话人表征。

所提出的模型在Voxceleb1-O、SITW.Dev、SITW.Eval三个主流的声纹测评集上分别取得0.64%、1.29%、1.63%的等错误率（Equal Error Rate, EER）。实验揭示，通过对音频信号进行局部建模和全局建模统一，可有效提取更鲁棒的说话人表征；与主流声纹识别网络EC