
论文精读
文章平均质量分 92
suskil
这个作者很懒,什么都没留下…
展开
-
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
论文地址: https://arxiv.org/abs/2402.10009该论文探索了两种音频信号的零样本编辑技术,这些技术利用了预训练扩散模型上的DDPM反演。**第一种技术源自图像领域,允许基于文本进行编辑。第二种技术是一种新颖的方法,可以在没有监督的情况下发现语义上有意义的编辑方向。**当应用于音乐信号时,这种方法展示了一系列音乐上有趣的修改,从控制特定乐器的参与到对旋律的即兴演奏。在本文中,我们探索了两种使用预训练音频 DDM 进行零样本音频编辑的方法,。原创 2024-02-29 17:29:41 · 899 阅读 · 0 评论 -
GST:端到端语音合成中的无监督风格建模、控制和传输
这篇论文介绍了一种名为“全局风格标记”(Global Style Tokens,GSTs)的方法,在Tacotron这一最先进的端到端语音合成系统中进行联合训练。这些嵌入表示没有经过明确的标注,但却学会了建模各种各样的声学表现。GSTs带来了一系列重要的结果。它们生成的软解释性“标签”可以用于以新颖的方式控制合成,例如独立于文本内容地改变语速和说话风格。它们还可以用于风格转移,即在整个长篇文本语料库中复制单个音频剪辑的说话风格。原创 2024-02-03 20:59:52 · 1043 阅读 · 1 评论 -
GenerSpeech:走向可推广的域外文本到语音的风格迁移
该方法通过在包含各种语音的更大数据集上进行预训练,以扩展数据分布,从而提高TTS(文本到语音)模型的鲁棒性。然而,这种数据需求较大的方法需要许多音频样本和相应的文本转录,通常成本较高,甚至有时是不可能的。另一种方法是通过在有多样声学条件的有限适应数据上进行微调,来适应新的语音。一些工作采用元学习的方法,以适应在训练过程中未曾见过的新说话者。然而,风格适应依赖于一个强假设,即目标语音可以用于模型的适应,而这在实践中并不总是成立。因此,如何在零样本的情况下进行领域外语音合成仍然是一个待解决的问题。原创 2024-01-14 17:47:17 · 1205 阅读 · 1 评论 -
LAURAGPT:使用 GPT 聆听、注意、理解和重新生成音频
阿里发布的语音大模型,已经开源https://github.com/alibaba-damo-academy/FunCodec/tree/master/egs/LibriTTS/text2speech_laura感兴趣的可以研究一下。原创 2024-01-10 22:01:27 · 1762 阅读 · 0 评论