🌐 社群导航
🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
最新论文解读系列
论文名:AudioX: Diffusion Transformer for Anything-to-Audio Generation
论文链接:https://arxiv.org/pdf/2503.10522
开源代码:https://zeyuet.github.io/AudioX/
导读
近年来,音频生成,尤其是音效和音乐生成,已成为多媒体创作中的关键要素,在众多应用中提升用户体验方面展现出实际价值。例如,在社交媒体、电影制作和视频游戏中,音效和音乐能显著增强情感共鸣,吸引观众参与。创造高质量音频的能力不仅丰富了多媒体内容,也为创意表达开辟了新途径。
简介
音频和音乐生成已成为许多应用中的关键任务,但现有方法存在显著局限性:它们孤立运行,缺乏跨模态的统一能力,高质量的多模态训练数据稀缺,且难以有效整合不同输入。在这项工作中,我们提出了Audio ,这是一种用于任意内容到音频和音乐生成的统一扩散变压器模型。与以往特定领域的模型不同,AudioX可以高质量地生成通用音频和音乐,同时提供灵活的自然语言控制,并能无缝处理包括文本、视频、图像、音乐和音频在内的各种模态。其关键创新在于一种多模态掩码训练策略,该策略对跨模态的输入进行掩码处理,迫使模型从掩码输入中学习,从而产生强大而统一的跨模态表示。为了解决数据稀缺问题,我们精心策划了两个综合数据集:基于VGGSound数据集的vggsound - caps,包含 个旁白字幕;以及从V2M数据集衍生而来的V2M - caps,包含600万个音乐字幕。大量实验表明,AudioX不仅与最先进的专业模型表现相当或更优,而且在统一架构下处理不同输入模态和生成任务方面具有显著的通用性。
数据集
图2. 自动字幕生成流程概述。对于每个视频 - 音频片段(上),通义千问2 - 音频(Qwen2 - Audio)使用数据集提供的关键词生成音频字幕。对于每个视频 - 音乐对(下),它描述关键属性(如流派、乐器、情绪、节奏)以形成音乐字幕。
1. 数据集来源
为了训练和评估我们的统一模型,我们构建了一组适用于各种任务的多样化数据集。附录中的表A1提供了我们使用的数据集概述。具体而言,对于音频生成,我们收集了包括音频字幕数据集(AudioCaps)[32]、波形字幕数据集(Wav - Caps)[47]、VGG音效数据集(VGGSound)[5]、音频集强标注数据集(AudioSet Strong)[25]、热门金曲数据集(Greatest Hits)[48]和视听语音配对数据集(AVVP)[58]在内的数据集。对于音乐生成,我们收集了视频到音乐数据集(V2M)[59]、音乐字幕数据集(MusicCaps)[1],此外还使用了一些我们专有的文本 - 音乐对数据。
2. 数据集处理
所收集数据集的一个局限性在于,它们主要由与音频相关的单模态对组成。例如,像VGGSound、AudioSet Strong、Greatest Hits和V2M这样的数据集仅包含视频 - 音频或视频 - 音乐对,而AudioCaps、Wavcaps和音乐字幕数据集(MUCaps)则仅限于文本 - 音频对。这一局限性阻碍了我们多条件模型的训练和评估。为了用额外的模态扩充现有数据集,并使我们的统一模型能够进行训练,我们对视频数据集中的音频进行标注以生成文本描述。具体来说,我们使用通义千问2 - 音频(Qwen2 - Audio)[9]为这些视频对数据集中的音频和音乐生成字幕。
对于来自数据集[5, 25, 48, 58]的每个10秒视频 - 音频片段,我们结合原始数据集中的关键词,促使字幕模型生成音频字幕。对于V2M [59]中的每个视频 - 音乐对,通义千问2 - 音频(Qwen2 - Audio)用于描述每个10秒音乐片段的流派、乐器、情绪和节奏,这些都是音乐描述的关键属性。提示模板如图2所示。
最终,我们分别为约秒和秒的视频 - 音频和视频 - 音乐对生成了全面的音频和音乐字幕。数据集的详细信息见附录中的表A2。我们将开源所有字幕数据。
方法
1. 概述
如图3所示,AudioX将视频、文本和音频的专用编码器与DiT模型集成,以生成高质量的音频或音乐。给定视频、文本和音频,该过程首先随机屏蔽每种模态——具体来说,是视频帧中的一部分图像块、文本标记和音频片段。这一策略旨在促进稳健的跨模态交互并增强表征学习。对于图像,我们通过填充帧将其视为静态视频序列,以确保对视觉数据进行一致处理。
图 3. AudioX 框架。该图描绘了 AudioX 框架,它采用专门的编码器和基于 DiT 的方法,并结合输入掩码来生成高质量音频,将不同的输入模态统一起来以进行全面的音频和音乐创作。
接下来,每种模态都通过其对应的编码器和专用投影模块来提取特定领域的特征。视觉投影利用一个时间变换器(temporal transformer),随后接一个线性层来捕捉时间模式,而文本和音频投影都使用线性变换进行维度对齐。这个过程产生三个嵌入向量和,将它们连接起来形成一个多模态条件嵌入向量:
连同一个扩散时间步,这个条件嵌入向量被输入到一个基于潜空间的DiT模型中进行音频和音乐合成。扩散过程的详细信息见4.2节。通过联合利用视觉、文本和音频线索,AudioX实现了灵活且高保真的任意内容到音频和音乐的生成。
2. 训练
训练过程的目标是有效整合多模态输入,并通过一个稳健的扩散和去噪框架优化DiT模型,以生成高质量的音频或音乐。训练数据的详细信息见附录中的表A1。在训练期间,对于每一对,其中是我们要生成的真实值,如果该对缺少视频或音频模态输入,我们使用零填充来填补缺失的模态。如果缺少文本模态输入,我们用自然语言描述来替代,例如在视频到音乐生成任务中使用“为视频生成音乐”。对于音频修复和音乐补全任务,其中需要音频模态输入,在音频修复任务中等于,模型使用被屏蔽的音频输入来修复被屏蔽的部分。对于音乐补全任务,是的前一个音乐片段,模型的目标是生成的后续音乐片段。
扩散过程。DiT模型通过去噪扩散过程在潜空间中处理多模态嵌入向量。最初,真实值使用编码器进行编码,该编码器将投影到潜空间,得到潜表示。然后数据经历前向扩散过程,在每个时间步产生有噪声的潜状态。
前向扩散被定义为一个在个时间步上的马尔可夫过程,其中时间步的潜状态是基于时间步的潜状态产生的:
其中表示时间步的预定义方差,表示高斯分布。前向扩散过程逐渐向潜状态添加噪声。
反向去噪过程涉及训练一个变换器网络,以在每个时间步逐渐去除噪声并重建干净的数据。反向过程建模如下:
其中 和 分别是反向扩散的预测均值和协方差,它们以 和 为条件。这些参数定义了从中采样 的高斯分布。
去噪器网络 以含噪潜在状态 、时间步 和多模态条件嵌入 作为输入。目标是最小化每个时间步的噪声估计误差,其公式表示为:
其中 是时间步 处的模拟噪声, 是模型预测的噪声。训练目标是最小化所有时间步上模拟噪声和预测噪声之间的均方误差。
通过以这种方式训练 DiT 模型,我们有效地将多模态输入统一到一个潜在空间中,从而能够生成与输入条件一致且连贯的高质量音频或音乐。
实验与结果
在本节中,我们提供实验的实现细节并进行广泛的评估。这些评估从主观和客观两个角度全面衡量了我们提出的方法的有效性。评估旨在为从各种输入生成音频和音乐提供有价值的见解。
1. 实现细节
我们训练模型以多模态输入为条件生成 10 秒的音频或音乐输出。对于视觉特征编码,我们使用 CLIP - ViT - B/32 [52],以每秒 5 帧的速率提取视频帧特征。文本输入使用 T5 - base [53] 进行编码,而音频使用音频自动编码器 [16] 进行编码和解码。该模型总共有 24 亿个参数(其中 11 亿个可训练)。由 24 层组成的 DiT 模型使用了来自 [16] 的预训练模型。
训练过程使用 AdamW 优化器,基础学习率为 ,权重衰减为 0.001,并使用包含指数上升和衰减阶段的学习率调度器。为了提高推理稳定性,我们维护模型权重的指数移动平均值。视频的掩码率设置为 0.6,文本为 0.2,音频为 0.6。训练在三个 NVIDIA H800 GPU 集群上进行,每个集群有 80GB 内存,总共大约需要 GPU 小时。批量大小设置为 96。在推理过程中,我们使用规模为 7.0 的无分类器引导进行 250 步。
2. 评估指标
为了定量评估我们的模型,我们使用了几个指标:用于声学相似度的 KL 散度(Kullback - Leibler Divergence,KL)、用于评估生成音频质量和多样性的 Inception 分数(Inception Score,IS)、使用 PANNs [33] 的 Frechet 距离(Frechet Distance,FD)和使用 VGGish [24] 的 Frechet 音频距离(Frechet Audio Distance,FAD)[26] 来评估音频质量和相似度、用于音频美学评估的生成复杂度(Production Complexity,PC)和生成质量(Production Quality,PQ)[60],以及用于评估输入和生成音频之间语义对齐的对齐度(Alignment,Align.)。对于对齐度,当输入为文本时我们使用 CLAP [64] 分数,当输入为视频时使用 Imagebind 视听分数(Imagebind AV score,IB)[20],两者均使用余弦相似度计算。对于主观评估,我们聘请了 10 位专业用户对生成的音频和音乐质量进行评分。遵循 [34, 40],我们使用 1 到 100 之间的总体质量分数(Overall Quality Score,OVL)和与输入的相关性(Relevance to the input,REL)。
3. 主要结果
我们的模型支持广泛的任务,可从视频、文本和音频输入的任意组合中生成音频或音乐。与其他最先进(SOTA)方法[8, 11, 14, 16, 19, 31, 34, ]相比,我们方法的主要结果展示在表1、表2、表3和表4中。从这些表格中可以明显看出,我们的模型在所有支持的任务中的大多数指标上都达到了最先进的性能。
音频生成。我们的音频生成结果显示在表1中,其中包括从视频和文本模态的任意组合中生成音频或音乐的结果。表格的上半部分展示了音频生成任务,而下半部分展示了音乐生成任务。
对于文本到音频的生成,我们在Audio - Caps[32]和VGGSound[5]数据集上进行评估。在AudioCaps数据集上,我们的模型达到了最先进的性能,而在VGGSound数据集上,优势更加明显。这表明我们的模型是一个强大的文本到音频生成器。此外,我们的模型和在VGGSound上的基线结果都证实了我们精心策划的字幕数据的有效性。对于视频到音频的生成,我们在VGGSound和AVVP[58]上进行实验,AVVP是所有方法的域外测试数据集。我们的模型在VGGSound和AVVP上都取得了与最先进水平相当的结果,证明它不仅是一个强大的视频到音频生成器,而且在域外数据集上表现出了出色的泛化能力。对于基于文本和视频条件的音频生成,我们与强大的基线模型FoleyCrafter[70]和MMAudio[8]进行基准对比,取得了与它们相当的结果。我们发现,当同时提供文本和视频输入时,模型能够有效地整合两种模态的信息,以生成更好的结果。
表1的下半部分展示了音乐生成任务的结果。我们在MusicCaps [11]上评估文本到音乐的生成,在V2M [59]上评估视频到音乐以及视频和文本到音乐的生成。我们的模型在这些任务中达到了最优(SOTA)性能,证明了其在基于不同输入生成高质量音乐方面的有效性。
音频修复。如表2所示,我们在音频修复任务上进行了实验,在AudioCaps [32]和AVVP [58]测试数据集上,我们的模型优于基线模型[40, 42]。此外,为了探索不同输入模态下的音频修复,我们进行了无约束音频修复实验,以及视频引导和文本与视频引导的音频修复任务(在AVVP上)的实验。结果表明,文本和视频都能有效引导音频修复任务,且文本的引导效果优于视频。当同时以文本和视频为条件时,模型可以整合这两种模态以获得更优的结果。
音乐补全。音乐补全是指模型根据给定的音乐片段生成音乐的任务。我们在V2M - bench [59]数据集上评估了我们的模型。结果如表3所示。我们发现我们的模型能够生成延续输入音乐片段的音乐。随着输入模态数量的增加,模型的性能有所提升,这表明它具有强大的跨模态学习能力,并且能够利用多模态信息生成更好的音乐。
图像到音频生成。为了评估我们的模型在零样本图像到音频生成任务上的性能,我们采用了与文献[65]相同的设置进行实验。我们将我们的模型与Seeing&Hearing [65]和Im2Wav [56]进行了比较,还通过将图像描述模型[2]与文本到音频模型[46]相结合构建了一个基线。结果见附录中的表4。我们发现我们的模型表现出了出色的性能
用户研究。我们进行了一项用户研究,以评估生成的音频和音乐的质量。我们为每个音频生成任务随机选择了25个样本,包括文本转音频(T2A)、文本转音乐(T2M)、视频转音频(V2A)和视频转音乐(V2M)。我们邀请了10名用户对生成的音频和音乐的质量进行评分。结果如图4所示。评估表明,我们的模型在大多数任务的OVL和REL分数方面达到了主观的最优性能(SOTA),这表明用户满意度很高。
图4. 生成的音频和音乐的用户研究结果。这些值代表了文本转音频(在AudioCaps数据集上)、文本转音乐(在MusicCaps数据集上)、视频转音频(在VGGSound数据集上)、视频转音乐(在V2M-bench数据集上)的平均OVL和REL分数。
4. 消融研究
在本节中,我们研究了模型中几个设计选择的影响,重点关注掩码率(mask ratio)和掩码策略(mask strategy),以及不同模态条件的影响。
掩码率。为了确定不同模态的最佳掩码率,我们对每个输入模态进行了掩码消融研究,结果如图5所示。对于每个模态,我们将掩码率从0变化到0.8。文本模态在掩码率为0.2时表现最佳,而视频和音频模态在掩码率为0.6时达到最佳性能。从图中可以看出,对视频模态进行掩码导致性能提升最为显著。我们将此归因于视频数据的高冗余性,其中包含丰富的帧和信息。对视频数据进行掩码增强了模型从输入中提取关键特征的能力,使其即使在较高的掩码率下也能有效利用剩余信息。这些结果证明了我们的掩码方法在提高模型性能方面的有效性。
图5. 每个模态的掩码率消融研究,掩码率从0.2、0.4、0.6到0.8变化。这些值代表了文本转音频、文本转音乐、视频转音频、视频转音乐和音频修复任务的平均Inception分数(IS)。
掩码策略。为了评估我们对每个模态输入进行掩码的策略的有效性,我们比较了不同的掩码策略,包括无掩码和特征掩码,结果见附录中的表A3。从结果可以明显看出,对输入模态进行掩码可以提高模型性能,而对特征进行掩码会导致性能下降。这与我们的理解一致,即输入掩码通过去除原始输入信号的部分内容来防止信息泄露,从而增加任务难度并增强模型学习鲁棒生成策略的能力。相比之下,特征掩码可能会无意中揭示全局上下文,降低学习过程的有效性。这些发现验证了我们的掩码策略的重要性。
统一模型性能。为了研究我们的统一模型在模态内和模态间上下文中的性能,我们进行了一项消融研究,结果如图6所示。对于模态内性能,我们将我们的统一模型与在单模态条件下训练的模型在单模态模型支持的任务上进行了比较。如左图所示,我们将我们的统一模型分别与文本条件、视频条件和音频条件的模型在文本转音频、视频转音频和音频修复任务上进行了比较。结果表明,我们的统一模型优于单模态模型,突出了其强大的模态内能力以及在各种单模态任务上的良好表现。对于模态间性能,我们使用我们的统一模型评估了不同模态组合的结果,如右图所示。在音乐生成任务中,添加每个额外的模态输入始终比单模态输入提高性能,当所有三种模态组合时取得最佳结果。该实验证实了我们的模型具有强大的模态间学习能力,能够有效整合来自不同模态的信息以提高性能。
总体而言,我们基于DiT且采用输入掩码的模型成功统一了不同的输入模态,在模态内和模态间都提高了性能,从而生成高质量的音频和音乐。
图6. 比较统一模型的模态内和模态间性能的消融研究。左图比较了单模态模型在文本转音频、视频转音频和音频修复任务上的表现。右图显示了在音乐生成中添加模态的效果,每个添加的模态都带来了性能提升。结果基于Inception分数(IS)指标。
结论
在这项工作中,我们介绍了AudioX,这是一个统一的框架,旨在应对音频和音乐生成中多模态集成的挑战,克服现有方法中普遍存在的输入模态和输出领域限制。通过采用基于扩散变压器(Diffusion Transformer,DiT)的方法并结合输入掩码策略,我们的模型有效地统一了文本、视频和音频输入,以生成高质量的音频输出。我们还精心整理并利用了全面的多模态数据集,为训练和评估提供了坚实的基础。大量实验结果表明,AudioX不仅在模态内任务中表现出色,还显著提高了模态间的性能,凸显了其在推动多模态音频生成领域发展方面的潜力。