ICASSP2021丨多说话人多风格音色克隆大赛（M2VoC）

最新推荐文章于 2025-09-26 14:08:18 发布

原创最新推荐文章于 2025-09-26 14:08:18 发布 · 665 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能 #深度学习

国际数据竞赛专栏收录该内容

19 篇文章

订阅专栏

该挑战赛聚焦于低资源条件下的多说话人和多风格语音克隆，提供少样本和极少样本两个赛道，涉及语音合成、说话人相似度、语音质量和风格表现力等评价指标。参赛者可以利用主办方提供的数据集或公开数据进行系统开发，最终通过主观测听评测确定优胜者。比赛设有奖金，并在ICASSP2021上展示结果。

部署运行你感兴趣的模型镜像

竞赛简介

文语转换（TTS）又称为语音合成，旨在将文本转换成自然语音的一类技术，是智能语音领域的前沿技术，在语音助手、信息播报、有声读物等方面具有重要的应用价值。在深度学习的帮助下，语音合成已实现了效果上的显著提升。端到端语音合成框架和神经声码器的最新进展使得我们能够生成特定领域内非常逼真和自然的语音，几乎可以以假乱真。但是，这种令人惊叹的能力仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。对于多说话人和多风格的语音合成，特别是在真实环境录制或是低资源的情况下表现力和鲁棒性仍然不能令人满意。例如，仅拥有每个说话人非常少量的音频样本时，语音的质量和目标说话人的相似度、表现力和鲁棒性仍然不能令人满意。即便是现有公开的音色克隆方案，对集外数据的音色复刻缺乏鲁棒性。我们称这种有挑战性的任务为多说话人和多风格的语音克隆任务（M2VoC）。

近年来，迁移学习、风格迁移，说话人编码和因素解耦方面的最新进展，为低资源语音克隆的提供了潜在的解决方案。作为2021年声学、语音和信号处理国际会议（ICASSP2021）信号处理挑战旗舰任务之一，M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台，对语音克隆任务进行研究。我们非常鼓励学术界和工业界的研究人员加入挑战，一起进行深入的讨论和合作。

我们设置了以下两个任务

赛道1：少样本赛道

主办方将分别提供两个和三个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和100个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库，可用来训练基础模型。目标说话人的测试集是一系列句子和短段落，用于针对目标说话人的文本到语音的生成。

● 子赛道1A：语音合成系统的搭建仅限于使用竞赛组织者提供的数据，禁止使用除此之外的数据。

● 子赛道1B：除了竞赛组织者提供的数据之外，可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中，应当明确说明使用的公开数据来源。

赛道2：极少样本赛道

主办方将分别提供两个和三个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和5个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库，可用来训练基础模型。目标说话人的测试集是一系列句子和短段落，用于针对目标说话人的文本到语音的生成。

● 子赛道2A：语音合成系统的搭建仅限于使用竞赛组织者提供的数据，禁止使用除此之外的数据。

● 子赛道2B：除了竞赛组织者提供的数据之外，可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中，应当明确说明使用的公开数据来源。

测评与排名

竞赛主办方将以主观测听的的方式对目标说话人的合成测试数据进行评测，以下标准进行：

● 说话人相似度：以说话人相似度为目标的5分制的MOS得分，即合成语音与目标说话人语音的接近程度。

● 语音质量：针对合成语音质量的5分制的MOS得分。

● 风格/表现力：针对合成语音的表现力/风格的5分制的MOS得分，即合成语音与目标说话人风格与表现力的接近程度。

● 发音准确率：百分比制的合成语音的发音准确率。

根据上述标准的加权和作为挑选每个子任务最终的获奖者的依据。

测评与排名

竞赛组织者将在竞赛进行的不同阶段提供4个语音/文本数据集。

● 多说话人训练数据 (MST)：

该部分数据由两个子集构成，包括希尔贝壳提供的AIShell-3数据集，我们称为MST-AIShell。该数据集包含来自218人大约85小时的中文普通话语音数据，语音在一个普通房间通过高保真麦克风录制，房间有一定混响和底噪。该数据集已经公开，可以从openslr.org 下载。另外一个数据集称为MST-Originbeat，由起源智能提供，包括一男一女两个中文普通话发音人，语音数据在标准录音棚用高保真麦克风录制。

● 目标说话人校验集 (TSV)：

赛道1：两个具有不同讲话风格的校验目标说话人，每个说话人有100个语音样本。语音数据是在静音室内使用高保真麦克风录制。这两个校验目标说话人提供给参赛者做音色克隆尝试。

赛道2：两个具有不同讲话风格的校验目标说话人，每个说话人有5个语音样本。语音数据是在静音室内使用高保真麦克风录制。这两个校验目标说话人提供给参赛者做音色克隆尝试。

● 目标说话人测试集 (TST)：

赛道1：三个具有不同讲话风格的测试目标说话人，每个说话人有100个语音样本。语音数据是在静音室内使用高保真麦克风录制。这三个测试目标说话人提供给参赛者做音色克隆，用于最终测试。

赛道2：三个具有不同讲话风格的测试目标说话人，每个说话人有5个语音样本。语音数据是在静音室内使用高保真麦克风录制。这三个测试目标说话人提供给参赛者做音色克隆，用于最终测试。

● 测试文本集(TT)：

竞赛组织者提供的句子和段落列表，参赛者使用给目标说话人搭建的语音合成系统合成语音，用于最终测试。

所有音频数据是单声道，44.1KHz采样率，量化位数为16bit，并配有抄本。语言为汉语普通话。

时间安排（AOE时间）

2020年12月4日	MST-Originbeat和TSV数据集公布发布详细参赛指引
2020年12月21日	竞赛注册截止
2021年1月8日	TST数据集公布
2021年1月13日0:00	TT数据集公布
2021年1月15日23:59	基于TT数据集，针对目标测试说话人（TST）合成语音提交截止日期
2021年1月29日0:00	评测结果公布
2021年2月5日23:59	参赛队伍系统描述论文提交截止
2021年2月11日23:59	入选ICASSP的论文提交截止

奖金

每个子赛道的排名前两名的队伍将获得由爱奇艺提供的奖金。

● 第一名: 1500 USD

● 第二名: 800 USD

ICASSP2021 M2VoC高分队伍排名

Track1a: 少样本赛道 (闭集)
排名	队伍编号	分数
1	T22	4.2025
2	T15	4.0972
3	T03	4.0634
4	T13	3.8999

Track1b: 少样本赛道 (开集)
排名	队伍编号	分数
1	T22	4.2052
-	B1	4.1534
2	T03	4.0539
-	B2	4.0402
3	T19	4.0048
4	T18	3.9697
5	T24	3.9388
6	T06	3.9199
7	T13	3.9020

注：B1和B2是由西工大音频语音与语言处理研究组提供的基线系统，不参与排名。

Track2a: 极少样本赛道 (闭集)
排名	队伍编号	分数
1	T03	3.6536
2	T14	3.5573
3	T10	3.5509
4	T15	3.5434
5	T18	3.5034
6	T24	3.2898

Track2b: 极少样本赛道 (开集)
排名	队伍编号	分数
1	T18	3.7030
2	T03	3.6525
3	T14	3.5082
4	T24	3.2536

竞赛组委会进行了两轮严格主观评测：第一轮包括所有提交队伍的系统，第二轮包括第一轮得分高的几个队伍的系统（从第二名开始得分差别不大的几个组）。最终获胜者是结合两轮测试的结果进行选取。对于track1，最终分数是在音质、风格和说话人相似度上的MOS得分平均值；对于track2，最终分数是在音质和说话人相似度上的MOS得分平均值。注意：本次竞赛最终结果没有计入可懂度测试分数。

详细竞赛结果已经通过邮件发送给每个提交队伍。如果有任何问题，请发邮件至：ICASSP_M2VoC@qiyi.com

组委会

谢磊，西北工业大学教授

李海，爱奇艺高级经理

石松，爱奇艺高级经理

李海洲，新加坡国立大学教授

吴志勇，清华大学副教授

田霄海，新加坡国立大学研究员

洪芬，起源智能CEO

卜辉，希尔贝壳CEO

联系我们

对本次赛事有任何问题或者建议，请发送邮件至ICASSP_M2VoC@qiyi.com。