文本转语音(TTS)是一项机器学习任务,模型将文本输入转换为音频输出。您可能已经在日常生活中遇到过TTS应用,例如GPS生成语音导航或手机虚拟助手的语音响应。
随着技术的进步,现代TTS系统已经超越了简单的机器人声音。如今,我们有了更多变化丰富、模仿正常对话的类人语音。
随着TTS应用的广泛普及,我们需要了解基于当代模型的TTS解决方案。例如,E2-TTS和F5-TTS模型通过当前架构实现了突破,帮助模型以最小延迟生成高质量音频。
本文将重点介绍E2和F5 TTS模型,以及如何将它们应用到您的项目中。
让我们开始吧!
E2与F5 TTS模型
让我们简要讨论一下F5和E2 TTS模型,以便更好地了解它们。
E2 TTS(Embarrassingly Easy TTS) 是一个完全非自回归的零样本TTS模型,可以生成说话者的声音。E2 TTS是由微软团队开发的,旨在应对依赖自回归或混合自回归/非自回归架构的传统复杂TTS系统。尽管像Voicebox和NaturalSpeech 3这样的模型在TTS质量方面取得了显著成果,但其架构通常被认为过于复杂且推理延迟较高。
E2 TTS通过仅使用两个组件(流匹配Transformer和声码器)构建了一个更简单的模型。该方法消除了对其他元素(如音素对齐)的需求,从而简化了系统架构。
F5 TTS(A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching) 是较新的研究,它建立在E2 TTS模型及类似模型的基础上。该模型是为了解决传统TTS系统的缺陷(如推理延迟和输出不自然)而创建的。
该模型探索了基于非自回归和流技术的梅尔频谱图生成方法,但团队进一步结合了流匹配方法和扩散Transformer(DiT)。这些方法使模型能够生成更高质量的语音,同时由于流程简化,推理速度更快。
随着时间的推移,将会出现超越E2和F5 TTS模型的新模型。然而,这些模型代表了当前最先进的TTS技术,大多数应用都能很好地使用它们。
鉴于这些模型的出色表现,了解如何使用这些模型是非常有益的。在下一节中,我们将使用HuggingFace Space,以便更轻松地测试这些模型。
音频模型测试
E2 TTS和F5 TTS基础模型在HuggingFace中可用,我们可以下载它们。不过,我们将使用已实现E2和F5 TTS的Hugging Space。
让我们打开它们,您将看到以下页面。
Text-to-Speech Solutions with Contemporary Models
您可以选择E2或F5模型进行尝试。目前,该空间仅支持英语和中文,但您可以随时微调模型以将其应用于其他语言。
模型需要一个样本音频作为参考,以从文本生成类人语音。您可以上传文件或自己录制音频。然后,您需要将文本输入到字段中以生成语音。
整体界面如下所示。
Text-to-Speech Solutions with Contemporary Models
您可以访问高级设置以调整模型参数,并通过参考文本启用精确的TTS生成。如果您觉得结果已经不错,则无需更改任何内容。
Text-to-Speech Solutions with Contemporary Models
音频结果可以在下面的部分中播放和下载。它还提供了频谱图以分析生成的音频。
Text-to-Speech Solutions with Contemporary Models
如果您有多个参考音频(例如不同的语音情感或声音类型),您可以使用模型同时生成它们。
为此,选择“Multi-Speech”选项,您将看到以下选择界面。
Text-to-Speech Solutions with Contemporary Models
您可以上传并添加不同的参考音频,并为每个音频添加标签。根据需要尽量多添加一些。
Text-to-Speech Solutions with Contemporary Models
然后,我们可以通过输入要生成的文本来在音频中生成多个语音。在多语音生成中,您需要在文本前传递语音类型标签,以指示使用哪个音频。
例如,我使用之前上传到模型的参考音频生成了两人对话。
Text-to-Speech Solutions with Contemporary Models
结果生成后,您只需下载即可。音频质量取决于您传递的所有参考,包括情感或语调。如果您觉得输出效果不佳,通常是因为我们传递的参考音频质量不高。
最后,该空间还支持与聊天模型进行语音对话,模型会使用我们传递的参考声音回复对话。例如,我传递了如下图像中的参考聊天,并保持系统提示为默认值。
Text-to-Speech Solutions with Contemporary Models
接下来,我录制了想要输入到聊天模型中的消息。模型生成了文本和音频格式的结果,并利用了之前提供的参考音频。
Text-to-Speech Solutions with Contemporary Models
您可以继续进行对话,参考音频将快速且忠实地生成音频结果。
以上就是E2和F5 TTS模型在HuggingFace Space中的全部实现。您可以随时尝试复制代码库以在您的项目中使用它们。
结论
当代文本转语音解决方案,如E2和F5 TTS模型,标志着TTS领域的技术进步。这些模型通过创新的架构解决了传统挑战,如推理延迟和语音不自然,从而简化了流程并提高了输出质量。
通过利用HuggingFace Space等平台,我们尝试了在各种用例和应用中实现这些模型,以生成类人语音输出和对话。
理解并利用像E2和F5 TTS这样的最先进模型,将确保您的技能与需要音频创新的企业和开发者保持相关性。