1. Overview
论文题目:An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification
论文单位:阿里巴巴集团,中国科学技术大学
核心内容:有效融合多尺度特征对于提高说话人识别性能至关重要。现有的大多数方法通过简单的操作,如特征求和或拼接,并采用逐层聚合的方式获取多尺度特征。本文提出了一种新的架构,称为增强式Res2Net(ERes2Net),通过局部和全局特征融合提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。为了实现有效的特征融合,ERes2Net架构中采用了注意力特征融合模块,代替了求和或串联操作。在VoxCeleb数据集上进行的一系列实验展现了ERes2Net识别性能的优越性。
论文预印版下载地址:
https://arxiv.org/pdf/2305.12838.pdf
项目开源地址:
https://github.com/alibaba-damo-academy/3D-Speaker
Problem statement: Most existing methods aggregate multi-scale features in a layer-wise manner via simple operations, such as summation or concatenation, provides a rigid combination of features that may not utilize the complementary information from different scales.
<

论文提出一种新型架构EnhancedRes2Net(ERes2Net),通过局部和全局特征融合来提高说话人识别性能。ERes2Net利用注意力特征融合模块融合多尺度特征,优于现有简单操作(如求和或拼接)。实验结果显示在VoxCeleb数据集上,ERes2Net表现出优越的识别性能。
最低0.47元/天 解锁文章
1844

被折叠的 条评论
为什么被折叠?



