36、《MnTTS2:开源多说话人蒙古语文本转语音合成数据集》

《MnTTS2:开源多说话人蒙古语文本转语音合成数据集》

1. 语音合成技术概述

文本转语音(TTS)技术旨在将输入的文本转换为类似人类的语音,它是人机交互中的一项标准技术,广泛应用于手机语音助手、汽车导航、智能音箱等领域。近年来,语音合成领域发展迅速,与传统的拼接和基于统计建模的方法不同,神经端到端TTS模型借助编码器 - 解码器架构取得了显著的性能提升。典型的模型包括Tacotron、Tacotron2、Transformer TTS、Deep Voice等。为了进一步加快推理速度,非自回归TTS模型如FastSpeech、FastSpeech2(s)等被提出并成为TTS的主流方法。同时,基于神经网络的声码器,如WaveNet、WaveRNN、MelGAN、HiFi - GAN等,使TTS模型合成的语音与人类语音相近。

2. 低资源语言TTS面临的挑战

语音合成技术的快速发展离不开大规模的语料库资源,对于英语和普通话等广泛使用的语言来说,这一点尤为明显。然而,像蒙古语这样的低资源语言,由于语料收集困难,相关研究进展缓慢。目前,蒙古语TTS领域相对缺乏开源数据集,虽然此前有一些尝试通过无监督学习、半监督学习和迁移学习等方法来改善低资源数据下的TTS合成效果,但由于缺乏大规模训练数据,这些方法难以达到实际应用的要求。

3. 相关工作回顾
  • 主流语言TTS数据集 :对于英语和普通话等主流语言,有许多免费且公开可用的TTS数据集,如用于英语的单说话人数据集LJSpeech,以及用于丰富说话人多样性的多说话人数据集Libritts(英语)和Aishell(中文)。
  • 蒙古语TTS相关工作 :为了推动蒙古语TTS的发展,一些研究构建了自己的蒙古语TTS语料库并设计了各种模型。例如,Huang等人建立了第一个情绪可控的蒙古语TTS系统,通过迁移学习和情绪嵌入实现了八种情绪嵌入;Rui Liu等人引入了一种将蒙古语单词分割成词干和词缀的新方法,提高了蒙古语押韵短语预测系统的性能,并提出了基于DNN的蒙古语语音合成系统,还引入了双向长短期记忆(BiLSTM)模型来改进传统语音合成系统中的短语断句预测步骤。但遗憾的是,上述工作中的蒙古语TTS数据集均未公开。此外,虽然有一些相关领域的数据集如用于蒙古语语音识别的M2ASR - MONGO已公开,但由于环境噪声和说话风格不当等问题,这些语音识别语料库无法应用于TTS领域。
4. MnTTS数据集介绍

此前研究团队曾发布了单说话人MnTTS数据集,该数据集由一位年轻的蒙古族女性母语播音员录制,总时长为8小时。数据集的转录文本收集自广泛的主题,如政策、体育、文化等,并将蒙古文脚本转换为拉丁序列以避免编码问题。同时,邀请了蒙古族志愿者检查和重新对齐音频与文本,去除了包含环境噪声和发音错误的音频,以确保整体质量。该数据集发布后受到了学术界和工业界的广泛关注,其一个子集还被用于NCMMSC2022的低资源场景蒙古语文本转语音挑战赛,促进了中国少数民族语言智能信息处理的发展。

5. MnTTS2数据集构建
  • 构建流程
    • 文本收集与叙述 :与MnTTS类似,构建MnTTS2数据集的第一步是收集大量转录文本。通过从网站和电子书上爬取文本信息,共获取了23,801个句子,这些句子内容丰富、主题广泛,涵盖了政治、文化、经济、体育等多个领域。同时,手动过滤并去除了一些可能涉及敏感政治问题、宗教问题或色情内容的文本,以确保数据集对蒙古语的发展做出积极贡献。
    • 文本预处理 :由于传统蒙古语具有黏着性特征,字母在不同上下文中表达不同风格,存在严重的和谐现象。为了解决这个问题,将文本转换为拉丁字母进行TTS训练。整个转换过程分为编码校正、拉丁转换和文本正则化三个步骤。
    • 音频录制与音频 - 文本对齐 :与MnTTS不同,MnTTS2邀请了三位蒙古族母语播音员录制音频,分别为F1、F2和F3(F2为小女孩,F1和F3年龄稍大)。所有录制工作在内蒙古大学的标准录音室进行,使用Adobe Audition作为录音软件。在录制过程中,要求播音员在每个音频片段的开头和结尾停顿0.3秒,保持嘴唇与麦克风的恒定距离,在逗号处稍作停顿,在问号处适当提高音调。录制完成后,邀请三位志愿者检查每个文本与其对应的自然音频,将录制的音频文件分割成句子并与文本对齐。最终获得了约30小时的语音数据,采样率为44.1kHz,采样精度为16位。
  • 语料库结构与统计信息
    • 结构 :每个说话人的录音文件和相应的文本集合保存在以说话人命名的文件夹中。所有音频以WAV格式存储,采样率为44.10kHz,编码为16位;所有文本保存在UTF - 8编码的TXT文件中,音频文件名与相应的文本文件名相同,每个文件名由说话人、文档ID和语料库ID组成。
    • 统计信息 :整个语料库共有23,801个句子。以说话人F1为例,总共有572,016个蒙古语字符,平均每个句子有79个字符,最短句子有12个字符,最长句子有189个字符;以单词为统计单位,F1的数据集总共有88,209个单词,每个句子的平均单词数为12,最小为3,最大为29。从句子持续时间的统计来看,F1的句子单词数集中在12 - 15,持续时间集中在4 - 5秒;F2的句子单词数不太集中,持续时间相对分散;F3与F1更相似,有更明显的集中趋势。三位说话人的统计数据均符合正态分布。具体统计结果如下表所示:
      |统计单位|说话人ID - F1|说话人ID - F2|说话人ID - F3|
      |----|----|----|----|
      |字符 - 总数|572016|459213|601366|
      |字符 - 平均值|79|61|67|
      |字符 - 最小值|12|2|2|
      |字符 - 最大值|189|188|190|
      |单词 - 总数|88209|71245|92719|
      |单词 - 平均值|12|9|10|
      |单词 - 最小值|3|1|1|
      |单词 - 最大值|29|30|29|

以下是MnTTS2数据集构建流程的mermaid流程图:

graph LR
    A[文本收集与叙述] --> B[文本预处理]
    B --> C[音频录制与音频 - 文本对齐]
    C --> D[语料库结构与统计信息]
6. 语音合成实验
  • 实验设置
    • FastSpeech2模型 :使用TensorFlowTTS工具包基于FastSpeech2模型构建端到端TTS模型。FastSpeech2是一种最先进的非自回归语音合成模型,它直接从语音波形中提取时长、音高和能量,并将这些特征作为训练的输入条件。该模型能有效解决重复和跳词等错误,具有训练速度快的优点,还引入了更多方差信息来缓解一对多映射问题,通过小波变换改进了音高预测。为了实现多说话人FastSpeech2,添加了说话人编码器模块,包括说话人嵌入、密集层和软加层。在网络架构设置中,说话人数量为3,说话人嵌入维度为384,文本编码器的隐藏层大小为384,隐藏层数为4,解码器的隐藏层大小为384,隐藏层数为4,方差预测器的卷积层数为2,丢弃率为0.5,初始学习率为0.001,丢弃率为0.2。
    • HiFi - GAN vocoder :HiFi - GAN vocoder通过生成对抗网络构建网络,将梅尔频谱图转换为高质量音频。其生成器由一维转置卷积组成的上采样结构和多感受野融合模块组成,负责优化上采样点。HiFi - GAN有两种判别器,包括多尺度和多周期判别器。生成器的内核大小为7,上采样率为(8, 8, 2, 2),周期尺度的判别器列表为(2, 3, 5, 7, 11),每个周期判别器的卷积滤波器为8,MelGAN判别器中输出下采样的池化类型为AveragePooling1D,内核大小为(5, 3),激活函数为LeakyReLU。HiFi - GAN独立于FastSpeech2进行训练,对于每个说话人,首先仅使用STFT损失训练生成器100k步,然后训练生成器和判别器100k步,从而为三位说话人分别获得相应的声码器。
    • 模型训练步骤 :使用为每个说话人训练的教师Tacotron2模型从注意力对比中提取时长,用于后续FastSpeech2模型的训练。对于每个说话人,使用在MnTTS上训练100k步的Tacotron2模型提取时长。然后,对多说话人FastSpeech2模型进行200k步训练以进行最终的语音生成。HiFi - GAN的生成器训练100k步,生成器和判别器联合训练100k步。所有上述模型均在2块V100 GPU上进行训练。

以下是FastSpeech2 + HiFi - GAN模型结构的mermaid流程图:

graph LR
    A[输入蒙古语文本] --> B[FastSpeech2模型]
    B --> C[Mel - 频谱图特征]
    C --> D[HiFi - GAN vocoder]
    D --> E[输出语音波形]
    B --> F[说话人编码器模块]
    F --> B

通过上述实验,验证了MnTTS2数据集的有效性,实验结果表明该数据集足以构建适用于实际应用的健壮多说话人TTS模型。MnTTS2数据集、训练配方和预训练模型可在https://github.com/ssmlkl/MnTTS2获取。

《MnTTS2:开源多说话人蒙古语文本转语音合成数据集》

7. 实验评估指标与结果分析
  • 评估指标 :采用平均意见得分(MOS)指标从自然度和说话人相似度两个方面对合成语音进行评估。自然度平均意见得分(N - MOS)衡量合成语音听起来自然流畅的程度,说话人相似度平均意见得分(SS - MOS)评估合成语音与真实说话人语音的相似程度。
  • 结果分析 :通过实验发现,基于MnTTS2数据集和FastSpeech2 + HiFi - GAN模型构建的系统在N - MOS和SS - MOS上都取得了令人满意的结果。这表明MnTTS2数据集能够为多说话人TTS模型提供足够的信息,使得模型能够学习到不同说话人的特征和语音模式,从而合成出自然度高且与真实说话人相似度高的语音。以下是一个简单的模拟实验结果表格:
    |评估指标|数值|
    |----|----|
    |N - MOS|较高(具体数值待进一步精确实验确定)|
    |SS - MOS|较高(具体数值待进一步精确实验确定)|
8. 与其他数据集和模型的对比
  • 与主流语言数据集对比 :与英语和普通话等主流语言的TTS数据集相比,MnTTS2虽然在规模和丰富度上可能相对较小,但对于蒙古语这种低资源语言来说,它是一个重要的突破。主流语言数据集有大量的公开资源可供使用,而MnTTS2为蒙古语TTS研究提供了首个公开的多说话人数据集,填补了该领域的空白。
  • 与其他蒙古语相关模型对比 :与之前未公开的蒙古语TTS数据集和模型相比,MnTTS2的优势在于其公开性和多说话人特性。之前的工作虽然在模型设计上有一定的创新,但由于数据集未公开,限制了其在更广泛范围内的应用和研究。而MnTTS2的发布使得更多的研究者能够基于该数据集进行实验和改进,推动蒙古语TTS技术的发展。
9. 应用场景与潜力
  • 实际应用场景
    • 教育领域 :可以用于开发蒙古语学习软件,为学习者提供标准、自然的语音示范,帮助他们更好地学习蒙古语的发音和语调。
    • 信息传播 :在广播、新闻等领域,实现蒙古语文本的自动语音播报,提高信息传播的效率和覆盖面。
    • 智能设备 :作为智能音箱、手机语音助手等设备的语音合成引擎,为蒙古族用户提供更加个性化和自然的交互体验。
  • 潜力分析 :随着人工智能技术的不断发展,MnTTS2数据集还有很大的潜力可挖掘。例如,可以进一步优化模型,提高合成语音的质量和表现力;结合情感分析技术,实现情感化的语音合成;拓展数据集的规模和多样性,以适应更多不同的应用场景。
10. 面临的挑战与未来研究方向
  • 面临的挑战
    • 数据规模和多样性 :尽管MnTTS2在数据规模上有了一定的提升,但与主流语言的数据集相比仍然较小。而且,目前的数据主题和说话人风格还不够丰富,可能无法满足所有实际应用的需求。
    • 模型性能优化 :虽然FastSpeech2 + HiFi - GAN模型在实验中取得了较好的结果,但仍然存在一些可以改进的地方,如合成语音的情感表达不够丰富、在某些特定语境下的自然度有待提高等。
    • 环境适应性 :在实际应用中,语音合成系统可能会面临各种不同的环境噪声和干扰,如何提高系统在复杂环境下的性能是一个亟待解决的问题。
  • 未来研究方向
    • 数据扩充 :收集更多不同主题、不同说话人风格的语音数据,进一步扩大数据集的规模和多样性。
    • 模型改进 :探索新的模型架构和算法,结合更多的语音特征和先验知识,提高合成语音的质量和表现力。例如,引入强化学习机制来优化模型的训练过程。
    • 环境鲁棒性增强 :研究抗噪技术和自适应算法,使语音合成系统能够在不同的环境条件下稳定工作。
11. 总结

MnTTS2作为一个开源的多说话人蒙古语文本转语音合成数据集,为蒙古语TTS领域的研究和应用提供了重要的资源。通过详细的构建过程、实验验证和性能评估,证明了该数据集的有效性和实用性。虽然目前还面临一些挑战,但未来有很大的发展潜力。随着更多研究者的参与和技术的不断进步,相信MnTTS2将推动蒙古语TTS技术取得更大的突破,为蒙古族用户带来更加优质的语音交互体验。同时,也为其他低资源语言的TTS研究提供了有益的借鉴。

以下是一个总结MnTTS2相关要点的mermaid流程图:

graph LR
    A[MnTTS2数据集] --> B[构建流程]
    A --> C[实验评估]
    A --> D[应用场景]
    A --> E[面临挑战]
    A --> F[未来方向]
    B --> B1[文本收集与叙述]
    B --> B2[文本预处理]
    B --> B3[音频录制与对齐]
    C --> C1[评估指标]
    C --> C2[结果分析]
    D --> D1[教育领域]
    D --> D2[信息传播]
    D --> D3[智能设备]
    E --> E1[数据规模和多样性]
    E --> E2[模型性能优化]
    E --> E3[环境适应性]
    F --> F1[数据扩充]
    F --> F2[模型改进]
    F --> F3[环境鲁棒性增强]

总之,MnTTS2的出现为蒙古语TTS的发展注入了新的活力,有望在未来的研究和应用中发挥重要作用。大家可以通过https://github.com/ssmlkl/MnTTS2获取该数据集、训练配方和预训练模型,参与到蒙古语TTS技术的研究和开发中来。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值