Boosting Large Language Model for Speech Synthesis: An Empirical Study

828 篇文章

已下架不支持订阅

本文探讨如何将预训练的LLM(如LLaMA/OPT)与VALL-E结合,增强LLM的语音生成能力。通过微调、叠加层和耦合方法的比较,发现耦合方法在说话人相似性和WER降低方面表现最佳。

本文是LLM系列文章,针对《Boosting Large Language Model for Speech Synthesis: An Empirical Study》的翻译。

提升大型语言模型用于语音合成的实证研究

摘要

大型语言模型(LLM)在自然语言处理方面取得了重大进展,并同时将语言能力扩展到其他模态,如语音和视觉。尽管如此,以前的大多数工作都集中在用听觉理解等感知能力来提示LLM,而用语音合成能力来增强LLM的有效方法仍然模糊不清。在本文中,我们通过将预训练的LLM LLaMA/OPT和文本到语音合成模型VALL-E相结合,对增强LLM的语音生成能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调LLM、LLM和VALL-E的叠加层,以及使用LLM作为强大的文本编码器来耦合LLM和VALL-E。实验结果表明,使用LoRA方法直接对LLM进行微调以提高语音合成能力效果不佳,叠加LLM和VALL-E可以提高生成语音的说话人相似度和误码率。在这三种方法中,利用LLM作为文本编码器的耦合方法可以实现最佳性能,使其优于原始语音合成模型,具有持续更好的说话者相似性和显著(10.9%)的WER降低。

1 引言

2 相关工作

3 方法

4 实验

5 结论

在这项研究中,我们探索了将语音合成能力融入大型语言模型(LLM)的各种策略。我们的研究结果表明,简单地用LoRA微调LLM无法与基线的性能相匹配,这表明用语音合成能力增强LLM是一个挑战。进一步的研究表明,用预先训练的文本到语音合成模型增强LLM可以超过基线VALL-E模型的性能。特别地,通过利用LLM和VALL-E各自的优势,耦合LLM和VAL

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值