AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERAT I O N W I T H SELF-SUPERVISED PRETRAINING
由于原本在notion上写的,文章中的文字链接大部分是我查询的一些资料,做的内部引用,所以无法展示。文章图片部分请参考原论文,相关工作部分没有翻译,如有需要请自行百度
这里是原文链接
audioLDM2论文通过引入一个中间表达LOA弥合了其他模C和音频x之间的巨大差距,同时利用GPT-2将其他模态转换为LOA。文章就此提出了一种将任意模态转化为音频的可能,其思想和CLAP,ImageBind十分类似,都是借用融合中间表征实现跨模态转换。
希望大家一起讨论,共同学习!如有不对,欢迎批评指正!!!
通过自监督预训练学习音频整体生成
文章信息
通讯作者:刘濠赫
一作:刘濠赫研究机构
- Centre for Vision, Speech, and Signal Processing (CVSSP), University of Surrey
- Speech, Audio & Music Intelligence (SAMI), ByteDance
摘要
- 文章提出了一种叫做AudioMAE的自监督预训练表征学习模型,该模型可以将任何音频转换为LOA,
- 引入了一种叫做音频语言LOA的概念,它是对音频的一种通用表征。
- 任何模态都可以基于GPT-2转化为LOA,并使用以LOA为条件的latent diffusion model进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE和latent diffusion model等优势。在text-to-audio,text-to-music,text-to-speech的主要基准实验上证明了与先前的方法相比新模型取得了SOTA或具有竞争力的性能。
尽管不同类型的音频,如语音、音乐和音效在音频生成上存在共性。但为每种类型设计模型时都需要仔细考虑其特定的目标和偏差,这些目标和偏差可能与其他类型存在显著差异。为了让我们更接近音频生成的统一视角,本文提出了一个框架,该框架利用相同的学习方法生成语音、音乐和音效。我们的框架引入了音频的通用表示,称为“音频语言”LOA.任何音频都可以基于AudioMAE(一种自监督的预训练表征学习模型)转换为LOA,在生成过程中,我们使用GPT2将任何模态转换为LOA,并使用以LOA为条件的latent diffusion model进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE和latent diffusion model等优势。在text-to-audio,text-to-music,text-to-speech的主要基准实验上证明了与先前的方法相比新模型取得了SOTA或具有竞争力的性能。我们的demo和代码在上面已经可用。https://audioldm.github.io/audioldm2/.
Introduction介绍
音频生成涉及根据特定类型条件(如文本,音素,或图片)合成音频,为了解决这个任务,基于深度学习的音频生成通常在不同的子领域进行,例如语音生成,音乐生成,音效生成以及特定类型的声音,如脚步声,小提琴声。为了解决每个子领域中的特定挑战,大多数以前的研究都设计了特定任务的归纳偏见,这些是预先定义的约束,指导学习过程专注于特定的问题空间。例如,音高和持续时间预测期通常用来模拟语音的韵律,而在音乐生成中,MIDI表示和特定领域预训练模型通常被使用。
尽管在特定子领域的音频生成开发的专门模型取得了显著进展,这种专业化的局限性,限制了音频生成模型在复杂听觉场景的更广泛的应用。是否可以开发一种统一的方法来生成各种类型的音频信号的问题仍然没有答案。在真实世界场景中,例如在电影场景,不同类型声音可能同时出现,需要一种更通用的方法建模声音的生成。虽然有些工作致力于解决通用领域的音频生成问题,但他们侧重于生成语义上正确的音频,而对细节关注有限。例如此前的text-to-audio研究往往会产生一些令人难以理解的语音。此外,虽然在解决特定子领域的挑战中归纳偏见很有用,但从一个领域得出的关于特定设计的结论不一定适用于另一个领域。近年来,统一视角解决问题取得了实质性进展。这一趋势凸显了构建统一音频生成框架的潜力。
这篇文章提出了一个新颖并且多功能的框架,名为“AudioLDM2”,它能够在没有领域特定归纳偏见的情况下,根据灵活的条件生成任意类型的音频。其核心思想是引入一种新的音频语言LOA,它是一系列向量,代表音频剪辑的语义信息。这种方法使我们能够把人类可理解的信息转换成LOA,并在LOA的条件合成音频表征。这个想法与在(Okamoto等人,2022年)中使用拟声词来描述环境声音的做法类似。尽管拟声词可以有效的模仿某些声音,例如动物的声音和简单的动作(e.g., ”splash” for water),但它无法涵盖全部音频细微差别。理论上,LOA应该能够表示细粒度声学信息(e.g., “what does the speaker say”)和粗粒度的语义信息(e.g., “what is that sound”)。考虑到这些要求,我们提议利用音频掩码自编码器Audio Mask Autoencoder(AudioMAE)提取的特征,这是一个音频生成的自监督预训练框架。AudioMAE在多样化音频内容上进行了预训练,其生成和重构方案使得其成为生成任务重的理想音频表征选择。
具体来说,我们利用了一个基于GPT语言模型将条件信息翻译成AudioMAE特征。GTP的输入条件是灵活的,包括文本,音频,图片,视频等表征。然后我们利用latent diffusion model基于AudioMAE特征合成音频。latent diffusion model可以在自监督的方式进行优化,允许使用大规模无标记的音频数据进行预训练。我们的语言建模方法使我们能够利用最近在语言模型的进展,同时减轻以前的音频自回归模型中出现的高推理计算成本和错误累计等挑战。这得益于连续AudioMAE特征的较短长度,它也提供了比以前使用的离散令牌更丰富的表示能力。
我们的实验结果展示了AudioLDM2在text-to-audio(TTA)和text-to-music(TTM)生成任务上实现了SOTA性能,分别使用了AudioCaps和MusicCaps数据集。在text-to-speech生成任务中,AudioLDM2性能明显优于强大的基准模型FastSpeech2从而实现了与SoTA相当的性能。除了利用文本条件生成,我们展示了利用视觉模态作为条件进行音频生成的能力,比如image-to-audio生成。此外我们探索了一些外围功能,比如音频,音乐,和语音的上下文学习。与原始的AudioLDM相比,AudioLDM2在保留相同功能的同时,展示出质量,多功能以及生成可理解内容的语音方面展示出实质性进步。我们的贡献如下:
- 我们提出一个新颖并且多功能音频生成模型,它能够执行条件音频,音乐,可理解语音生成。
- 我们所提出的方法是基于音频的通用表示,无需音频注释即可实现核心潜在扩散模型的大规模自监督预训练,并有助于结合自回归模型和潜在扩散模型的优点
- 我们的实验表明AudioLDM2在text-to-audio和text-to-music生成上实现了soTA,同时在text-to-speech方面也提供了与当今soTA相当的性能。
2 AudioLDM2
H 0 = G ∘ M : C ↦ Y ^ ↦ x \mathcal{H}_0 = \mathcal{G} \circ \mathcal{M}:C \mapsto \hat{Y} \mapsto x H0=G∘M:C↦Y^↦x
这里,函数 M \mathcal{M} M,任意模态到LOA翻译器,旨在基于C产生Y。紧随 M \mathcal{M} M之后,函数 G \mathcal{G} G,LOA到音频的生成器,接受LOA作为输入并且学习估计音频数据 x x x。与其在公式1中使用 Y ^ = M ( C ) \hat{Y} = \mathcal{M}(C) Y^=M(C),不如基于现成可用的 Y = A ( x ) Y = \mathcal{A}(x) Y=A(x)优化生成函数 G \mathcal{G} G,这个可以被表述为:
H 1 = G ∘ A : x ↦ Y ↦ x , \mathcal{H}_1 = \mathcal{G} \circ \mathcal{A} :x \mapsto Y\mapsto x, H1=G∘A:x↦Y↦x,
由于过程 H 1 \mathcal{H}_1 H1仅涉及x作为训练数据,公式2意味着模型 G \mathcal{G} G可以在没有音频注释的情况下以自监督的方式进行优化。这种自监督方案可以缓解音频数据标签的稀缺性(刘等人,2023a)并为整个生成系统提供一个强大的支撑。以下各节将介绍系统的详细信息。第2.1节介绍了函数 G \mathcal{G} G,包括音频到LOA编码器encoder A \mathcal{A} A的设计,以及如何在公式2中构建自监督预训练过程。第2.2节介绍了基于条件C估计 ( Y ^ ) ( \hat{Y} ) (Y^) 的函数 M \mathcal{M} M。
2.1 latent diffusion pretraining
2.1.1 使用AudioMAE进行语义表征学习
为了准确地生成包括语音、音乐和音效在内的多种类型的音频,音频表征 Y 应该有效地捕捉音频信号的语义和声学细节。因此,我们提议使用自监督预训练的 AudioMAE(Xu 等人,2022年)作为函数 A \mathcal{A} A 的表征提取模块,因为它具有通用性和在下游音频分类任务上的高准确性。
音频掩码自编码器(AudioMAE)是一种音频自监督预训练模型,它从未标注的音频数据中学习表征,而不依赖于手动标注的注释。AudioMAE 由一个编码器和一个解码器组成,两者都采用了类似于视觉变换器(VIT)(Dosovitskiy 等人,2020年)的架构。在自监督预训练期间,编码器的输入片段(通常是 mel 频谱图)被随机掩盖,解码器学习重建被掩盖的片段。与其他音频自监督预训练模型相比,AudioMAE 有几个优点:(i) AudioMAE 已被验证在一般音频领域工作良好。例如,AudioMAE 可以在 AudioSet(Gemmeke 等人,2017年)上有效地进行预训练,并在下游音频分类任务上取得最先进的性能。相比之下,典型的音频自监督模型专注于特定领域,如 MERT(Li 等人,2023年)专注于音乐,HuBERT(Hsu 等人,2021年)专注于语音。(ii) AudioMAE 特征对生成任务可能比其他区分性预训练方法更好。以对比损失或下一个标记预测分类损失为学习目标,之前的系统如 wav2vec(Schneider 等人,2019年)和 BYOL-A(Niizumi 等人,2021年)在预训练期间采用了区分性方法。相比之下,AudioMAE 专注于重建被掩盖的片段,这是一个生成过程。
对于输入音频信号x,AudioMAE首先计算对数梅尔频谱图 X ∈ R T × F X \in \mathbb{R}^{T \times F} X∈RT×F,T表示梅尔频谱的时间步长。然后梅尔频谱X被视为图像并分割成大小 P × P P \times P P×P的块,作为AudioMAE编码器的输入。 小块的大小 ( P ) 通常被设计为 ( T ) 和 ( F ) 的公因子common factor。使用卷积神经网络进行小块切分和嵌入,其中核大小为 ( P ),步长为 ( P ),输出通道数为 ( D )。这会产生一个输出形状为 ( T ′ × F ′ × D ) ( T' \times F' \times D ) (T′×F′×D),其中 ( D ) 是 AudioMAE 嵌入维度, ( T ′ = T P ) , ( F ′ = F P ) ( T' = \frac{T}{P} ),( F' = \frac{F}{P} ) (T′=PT),(F′=PF)。AudioMAE 编码器的输出特征 ( Y ) ( Y ) (Y),具有与输入相同的形状,并通常在预训练后用作下游任务的特征。
AudioMAE 特征后处理 **。在计算Y后,我们提出利用额外的池化步骤将Y聚合为 Y λ Y_{\lambda} Yλ,如图1所示。我们执行池化步骤是为了减少 AudioMAE 特征的序列长度,以便在函数 M 中更容易进行估计。具体来说,我们在 Y ∈ R T ′ × F ′ × D Y \in \mathbb{R}^{T' \times F' \times D} Y∈RT′×F′×D 的前两个维度上执行了一个二维平均-最大池化操作(刘等人,2023b),其中池化核的大小和步长具有相同的值,表示为 λ ∈ I + \lambda \in \mathbb{I}^+ λ∈I+。这种二维池化操作有助于在输出中保持时间-频率关系。池化后的最终输入 Y λ Y_\lambda Yλ被重塑为一个嵌入序列,其形状为 L λ × D , L_\lambda \times D, Lλ×D,其中 L λ = T ′ F ′ / λ 2 L_\lambda = T'F'/ \lambda^2 Lλ=T′F′/λ

本文介绍了 AudioLDM 2 框架,它引入音频语言 LOA,利用 AudioMAE 进行语义表征学习,结合 GPT - 2 和 latent diffusion model 实现自监督音频生成。实验表明,该框架在文本到音频、音乐、语音生成任务上取得 SOTA 或有竞争力的性能,还具备上下文学习等功能。
最低0.47元/天 解锁文章
388

被折叠的 条评论
为什么被折叠?



