本文是LLM系列文章,针对《Boosting Large Language Model for Speech Synthesis: An Empirical Study》的翻译。
摘要
大型语言模型(LLM)在自然语言处理方面取得了重大进展,并同时将语言能力扩展到其他模态,如语音和视觉。尽管如此,以前的大多数工作都集中在用听觉理解等感知能力来提示LLM,而用语音合成能力来增强LLM的有效方法仍然模糊不清。在本文中,我们通过将预训练的LLM LLaMA/OPT和文本到语音合成模型VALL-E相结合,对增强LLM的语音生成能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调LLM、LLM和VALL-E的叠加层,以及使用LLM作为强大的文本编码器来耦合LLM和VALL-E。实验结果表明,使用LoRA方法直接对LLM进行微调以提高语音合成能力效果不佳,叠加LLM和VALL-E可以提高生成语音的说话人相似度和误码率。在这三种方法中,利用LLM作为文本编码器的耦合方法可以实现最佳性能,使其优于原始语音合成模型,具有持续更好的说话者相似性和显著(10.9%)的WER降低。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在这项研究中,我们探索了将语音合成能力融入大型语言模型(LLM)的各种策略。我们的研究结果表明,简单地用LoRA微调LLM无法与基线的性能相匹配,这表明用语音合成能力增强LLM是一个挑战。进一步的研究表明,用预先训练的文本到语音合成模型增强LLM可以超过基线VALL-E模型的性能。特别地,通过利用LLM和VALL-E各自的优势,耦合LLM和VAL
本文探讨如何将预训练的LLM(如LLaMA/OPT)与VALL-E结合,增强LLM的语音生成能力。通过微调、叠加层和耦合方法的比较,发现耦合方法在说话人相似性和WER降低方面表现最佳。
已下架不支持订阅
1339

被折叠的 条评论
为什么被折叠?



