30、音频-视觉说话人分割中的预训练语音模型探索

音频-视觉说话人分割中的预训练语音模型探索

1. 引言

说话人分割(SD)旨在确定音频或视频记录中“谁在何时说话”,在多媒体信息检索、说话人轮替分析和多说话人语音识别等领域应用广泛。随着SD应用场景变得广泛而复杂,单模态(基于音频或视觉)的SD遇到了性能瓶颈。

一方面,语音本身具有不确定性,多说话人的语音信号相互干扰,还会受到回声、其他音频源和环境噪声的影响;另一方面,仅从单一视觉模态识别说话人非常复杂,通常只能检测正面特写图像中的嘴唇或面部动作,在更普遍的场景(如非正式社交聚会)中,人们不一定正对着摄像头,唇读变得困难。因此,利用视觉和音频信息对于提高说话人分割的有效性至关重要。

此前已有一些研究开始利用视觉和音频线索进行说话人分割,但存在一些问题。例如,现有的端到端音频 - 视觉说话人分割(AVSD)方法中,说话人编码器和音频 - 视觉说话人解码器的单独优化难以达到全局最优。而且,尽管预训练语音模型在各种下游语音任务中已被证明有效,但关于自监督预训练模型对AVSD影响的研究还很有限。

为了填补这一空白,我们采用监督预训练的说话人模型(ResNet和ECAPA - TDNN)和自监督模型(WavLM和HuBERT)作为端到端AVSD系统中的说话人和音频嵌入提取器。同时,评估不同框架(如Transformer、Conformer和交叉注意力机制)在AVSD系统音频 - 视觉解码器模块中的有效性。此外,为了减轻单独训练导致的分割性能下降,我们对AVSD系统中的预训练音频编码器、说话人编码器和音频 - 视觉解码器模块进行联合训练。

2. 方法

2.1 概述

改进的AVSD框架包括唇编码器、音频编码

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值