2024-03-26 VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
我们介绍了VOICERAFT,一种令牌填充神经编解码器语言模型,它在有声读物、互联网视频和播客的语音编辑和零样本文本到速度(TTS)方面都实现了最先进的性能。VOCECRAFT采用了Transformer解码器架构,并引入了一种令牌重排过程,该过程结合了因果掩蔽和延迟堆叠,以实现在现有序列内的生成。在语音编辑任务中,VOICERAFT产生的编辑语音在自然度方面与未经编辑的录音几乎无法区分,这是由人类评估的;对于零样本TTS,我们的模型优于之前的SotA模型,包括VALLE和流行的商业模型XTTS v2。至关重要的是,这些模型是在具有挑战性和现实性的数据集上进行评估的,这些数据集包括不同的口音、说话风格、录音条件、背景噪音和音乐,与其他模型和真实录音相比,我们的模型始终表现良好。特别是,对于语音编辑评估,我们引入了一个名为REALEDIT的高质量、具有挑战性和真实性的数据集。我们鼓励读者在https://jasonpy.github.io/VoiceCraft_web上收听演示。
令牌重排过程和建模框架的一个示例。重排过程包括两个步骤:(1)因果掩蔽,其中掩蔽的跨度被掩蔽令牌替换并移动到末尾;(2)延迟堆叠,其中令牌根据其代码簿索引在时间维度上移动。
2024-03-9. HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling
基于标记的文本到语音(TTS)模型已成为生成自然逼真语音的一种很有前途的途径,但它们难以解决发音准确性低、说话风格和音色不一致以及对多样化训练数据的巨大需求。作为回应,我们引入了一种新的分层声学建模方法,辅以量身定制的数据增强策略,并在真实数据和合成数据的组合上对其进行训练,将数据大小扩展到650k小时,从而产生具有0.8B参数的零样本TTS模型。
具体来说,我们的方法通过预测器将包含基于精细自监督学习(SSL)离散单元的补充声学信息的潜在变量序列合并到TTS模型中。这显著减轻了合成语音中的发音错误和风格突变。在训练过程中,我们战略性地替换和复制数据片段,以增强音色的一致性。
此外,利用预训练的少镜头语音转换模型来生成具有相同内容但不同音色的过多语音。这有助于明确学习话语水平的一对多映射,丰富语音多样性,并确保音色的一致性。对比实验1证明了我们的模型在发音精度、保持说话风格以及音色连续性方面优于VALL-E。
2024-03-05 NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
尽管最近的大规模文本到语音(TTS)模型已经取得了显著的进展,但它们在语音质量、相似性和韵律方面仍然存在不足。