DKU - MSXF 说话人分割系统与中国英语学习者语调感知研究
一、DKU - MSXF 说话人分割系统
1. 系统框架
该系统整合了基于聚类和基于 TSVAD(目标说话人语音活动检测)方法的优势。其框架大致如下:
graph LR
A[音频] --> B[VAD]
A --> C[OSD]
A --> D[聚类]
A --> E[TSVAD]
B --> F[不同嵌入提取器 x 3]
C --> F
D --> F
E --> F
F --> G[Dover - Lap]
G --> H[RTTMs]
与之前的提交相比,主要差异在于改进了说话人嵌入模型和 Seq2Seq - TSVAD 模型。
2. 数据集描述
不同任务使用的数据集如下:
- 语音活动检测(VAD)和重叠语音检测(OSD) :使用 VoxCeleb 1&2 进行数据模拟,VoxConverse 进行自适应和验证。
- 说话人嵌入 :使用 VoxCeleb 1&2 和 VoxBlink - Clean 进行训练和评估。
- 基于聚类的说话人分割 :使用 VoxConverse 进行超参数调整。
- 基于 TSVAD 的说话人分割
超级会员免费看
订阅专栏 解锁全文
1353

被折叠的 条评论
为什么被折叠?



