37、DKU - MSXF 说话人分割系统与中国英语学习者语调感知研究

DKU - MSXF 说话人分割系统与中国英语学习者语调感知研究

一、DKU - MSXF 说话人分割系统
1. 系统框架

该系统整合了基于聚类和基于 TSVAD(目标说话人语音活动检测)方法的优势。其框架大致如下:

graph LR
    A[音频] --> B[VAD]
    A --> C[OSD]
    A --> D[聚类]
    A --> E[TSVAD]
    B --> F[不同嵌入提取器 x 3]
    C --> F
    D --> F
    E --> F
    F --> G[Dover - Lap]
    G --> H[RTTMs]

与之前的提交相比,主要差异在于改进了说话人嵌入模型和 Seq2Seq - TSVAD 模型。

2. 数据集描述

不同任务使用的数据集如下:
- 语音活动检测(VAD)和重叠语音检测(OSD) :使用 VoxCeleb 1&2 进行数据模拟,VoxConverse 进行自适应和验证。
- 说话人嵌入 :使用 VoxCeleb 1&2 和 VoxBlink - Clean 进行训练和评估。
- 基于聚类的说话人分割 :使用 VoxConverse 进行超参数调整。
- 基于 TSVAD 的说话人分割

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值