揭秘网飞(Netflix)最新科技:看见声音,由音频生成图像!

导读:

音频到图像生成一直被认为是一项难以实现的技术,因为两个模特之间的鸿沟实在是大到难以跨越,即便是人类也只能够对非常有代表性的声音做出图像的联想,比如枪械的射击声,跑车引擎发出的轰鸣声,以及古寺的钟声等等。而随着大模型和AI技术的发展,跨越模态的生成逐渐成为了可能,但训练这类模型需海量精准匹配的音视频数据,但获取难度大、成本高且限制了数据多样性。

近期视频制作界的“大佬”公司网飞Netflix的一项新研究打破常规,提出无需死磕真实音视对应关系,而是借助现代视觉-语言模型的推理检索能力,将不同来源的高质量音频、图像巧妙配对,构建出一个可扩展的图像声化框架。用此框架生成的数据训练出的音频到图像生成模型,性能竟与顶尖模型相当。更妙的是,该模型还隐含发展出语义混合、插值等听觉能力,能精准指导图像生成。该模型仅通过火焰的燃烧声和马匹的奔跑声输入,即可获得一张骏马在烈焰战场中飞奔的图像,这样的科技是否能让你眼前一亮!

©️【深蓝AI】编译

论⽂题目:Seeing Sound: Assembling Sounds from Visuals for Audio-to-Image Generation

论文作者:Darius Petermann, Mahdi M. Kalayeh

论文地址:https://arxiv.org/abs/2501.05413

▲图1|烈火战马生成效果演示©️【深蓝AI】编译

1.引入

一个单一的听觉场景是否可以对应多种视觉解释呢?考虑一下马在混凝土上行走的声音,伴随着附近妇女的闲聊声以及背景中树叶的沙沙声。根据这样的声音来想象场景是一项非平凡且本质上模糊的任务。虽然音频中传达的许多语义(例如马、妇女和树叶)都有很强的视觉对应关系,但其他一些则没有。妇女们穿着什么类型的衣服?沙沙声是来自一棵大树还是一丛小灌木?马的毛色是什么?回答这些问题涉及到本质上与任何听觉品质无关的语义,仅从声音中无法推断出来。训练一个用于这种跨模态翻译任务的模型是一项艰巨的任务,目前这方面的大多数工作都利用野外视频来实现这一目的,依赖于自然伴随视觉出现的同步音频。然而,从这些视频中提取的音频片段可能缺乏足够的质量和语义对应关系,更不用说它们精心策划的领域所固有的有限多样性了。在这一背景下,作者认为对野外数据的依赖被夸大了。作者提出了一个框架,提供超越灵活的声化能力,允许任何图像数据集被声化,从而扩大了在各个领域的潜在应用。

近年来,扩散模型因其卓越的生成能力而蓬勃发展。例如,一些方法在生成高质量图像方面取得了显著成功,但它们仅依赖文本描述可能会导致某些限制,特别是在简洁性至关重要时,自然语言可能无法准确捕捉视觉场景的丰富本质。也就是说,早期的努力已经开始探索音频作为一种可行的条件信号,原因有以下几点。首先,声音所固有的时间动态提供了丰富的上下文和细腻的连续信息流。过渡、节奏、速度和进展都是关键的细微差别,这些在文本表示的离散性质中常常丢失。其次,声音所固有的丰富表现力可以更丰富、更简洁地传达信息,与文本相比。在对话中,通过语调、音高和音量的变化传达情感、意图和微妙的细微差别,可以高效地传递上下文信息。第三,这两种模态之间的自然多模态关系使音频成为引导图像生成的合适手段。毕竟,视觉和听觉在人类感知中是紧密相连的,它们在作者日常体验中的共现是普遍存在的。

然而,将音频与图像对齐并非易事;现有方法通常在数据质量和跨模态对应关系上苦苦挣扎。以往在音频驱动的图像生成方面的努力为探索新的生成途径铺平了道路,但它们对视频资产的依赖极大地限制了它们的多样性、领域覆盖范围和泛化能力。更重要的是,训练对的质量和一致性在很大程度上受到原始视频资产的嘈杂和低质量性质的影响。

在本文中,作者介绍了一种新颖的图像声化方案,通过利用大量多样化的不相交的单模态图像和音频数据集,生成高质量的音频-视觉配对。作者稳健的声音生成过程确保了各个模态的高感知质量,并通过模块化和灵活的检索方法实现了卓越的跨模态语义对应关系。通过利用预训练的视觉-语言模型和多模态潜在表示,作者增强了图像到音频的检索过程,最终实现了数据质量和相关性的提升。作者的方法使得预训练的文本到图像扩散模型能够适应音频到图像生成任务,保持领域一致性,并最终提升模型性能。作者的贡献如下:

  • 作者提出了一种从单模态图像和音频数据集中构建具有高对应关系的大规模音频-视觉配对的配方,通过跨模态检索过程实现,使任意图像数据集能够被声化。

  • 作者将预训练的文本到图像模型适应于音频到图像生成,并在五个不同的基准测试中,在多个互补指标上显示出与最先进的模型相当的性能。

  • 作者进行了一系列消融研究,以分析作者框架中出现的各种听觉属性。

  • 作者将开源代码和模型权重,以及作者的音频-视觉数据集,该数据集包含大约100万张图像,配对有文本声音概念和相应的音频对应物。

▲图2|全文方法总览©️【深蓝AI】编译

2.具体方法与实现

在介绍具体方法与实现之前,作者专门强调了这篇研究与其他工作的区别,并着重提炼了本文的独特之处,笔者在这里进行了一个简单的总结,读者可以先理解这段内容,再带着这段内容的理解继续阅读后面的方法部分。

通常情况下,制作具有强跨模态对应的音频-视觉配对数据集,是通过从自然视频中直接检索短片段来实现的。然而,音频能够传达随时间变化的信息,而图像仅能呈现某一瞬间的片段,这种差异使得从视频中选择合适的视觉片段变得复杂。

此外,野外收集的数据存在噪声,获取强音频-视觉对应关系面临挑战。为了部分解决这一问题,现有方法通常将研究领域限定在具有强对应关系的声音概念上,但这严重限制了模型在处理多样化和领域外查询时的能力。

尽管如此,大规模且公开可用的音频-视觉数据集并不多见,其中较为知名的是Audioset。尽管其规模较大,但在音频和视觉两个模态的质量上仍有待提高。

尽管现有方法在解决上述限制方面做出了诸多努力,但这篇工作中认为,在音频到图像生成的背景下,对野外数据的依赖被过度强调。具体来说,过分依赖“真实”的音频-图像对,不仅对建模任务施加了重大且不必要的约束,还过度限制了模型的应用领域。此外,野外数据中固有的自然音频-视觉对应关系本质上是有限的,模态之间的语义差距进一步削弱了对这种数据的需求。因此,这篇工作中通过模块化检索过程构建音频-视觉配对,生成具有强跨模态对应的高质量样本。

在接下来的介绍中,笔者提取本文最重要的三个部分作为主要讲解内容,分别对应着如何提取音频作为输入,如何实现音频到视频或图像的映射,如何表示音频及图像的关系。

2.1 提取声音概念

先前的研究利用最先进的视觉-语言模型(如LLaVA)的力量,用于复杂的推理和标记任务。在这篇工作中中,这篇工作中并不寻求获取图像的全面文本描述,而是寻求与图像中可能描绘的声音品质(即声音描述符)特别相关的描述。例如,给定一张在日落时分在河边玩耍的棕色狗的图像,这篇工作中理想地希望提取“狗”和“河”这样的声音概念,同时忽略剩余的描述,如“日落”和“棕色”,因为这些术语与任何声音品质无关。图2展示了指导视觉-语言模型以适当提示,从而有效提取声音概念的过程。通过对各种视觉-语言模型和提示方法的全面实证评估,这篇工作中发现LLaVA和CogVLM都能生成令人满意的响应,尽管检索到的概念存在差异。鉴于此,这篇工作中选择将这两种模型纳入声音化流程,为声音概念池增加更多多样性,并引入一种增强机制,使单张图像与多个可能的声学场景相关联。这篇工作中的最终提示(参见图2)是经过精心工程试验的结果。例如,这篇工作中发现视觉-语言模型常常对可能在画面外的声音对象做出假设,这可能对这篇工作中的任务产生不利影响。为解决这一问题,添加“在图像中可见且存在”的澄清显著提高了检索质量。下图所示为一个音频的提取示例。

▲图3|音频提取示例©️【深蓝AI】编译

2.2 从声音概念到音频片段

这篇工作中已经确定,当适当提示时,现代视觉-语言模型能够以文本形式提取声音概念(参见图3)。在为每个声音概念获得准确的描述性文本后,下一个挑战是在模态转换过程中最小化信息损失,同时检索它们的声音对应物。

考虑以下声音概念:“狗:狗在草地上奔跑时的叫声。”在这里,这篇工作中不仅要考虑狗叫,还要考虑狗脚步产生的沙沙声。为此,这篇工作中利用CLAP的跨模态预训练潜在空间进行文本到音频的检索。具体来说,这篇工作中使用其音频编码器为每个音频片段生成一个嵌入,得到一个在CLAP的D维潜在空间中的表示,这相当于原始音频片段在时间维度上的表示,但转换到了一个更高维度的空间。

同样,其文本编码器允许这篇工作中将每个文本声音概念转换为其对应的潜在嵌入,在这个D维潜在空间中。有了这些,从音频片段集合中为给定的声音概念检索语义对齐的音频片段就变成了一个基于相似度的随机过程,其中音频片段被选中的概率与文本和音频嵌入的点积成正比。然而,由于欧几里得向量空间中存在异常值,这种公式对于这篇工作中的任务并不理想。考虑两个音频片段,虽然一个仅传达“狗叫”的声音,但另一个还包含其他声音,如“人们说话”或“树叶沙沙声”。可以合理地假设,对于大量显示狗的图像,视觉-语言模型会得出一些与“狗叫”文本上相当接近的声音概念。

在这种情况下,这篇工作中观察到与“狗叫”最匹配的音频片段会被过度采样。为改善这一点,这篇工作中对跨模态相似性分数应用符号平方根(SSR),以抑制异常值并减少顶部匹配之间的总体方差。这将导致与图像配对的音频片段池更大、更多样化。为确保高跨模态对应关系和高效采样(音频片段总数约为50万),这篇工作中动态估计一个阈值以限定相似性分数的下限。这篇工作中使用每个查询的顶部k个匹配的平均分数。这种方法会在相似性分数随着k增长而急剧降低时产生较小的音频片段池。

同样,当顶部匹配之间的相似性分数多样性相当低时,池会变大。算法1详细说明了这篇工作中为单个声音概念检索的过程。在实践中,这篇工作中对所有图像关联的所有声音概念并行实现和执行。

为了获得给定图像的最终音频对应物,检索到的声音概念首先分别使用从均匀分布的分贝-LUFS范围中采样的值进行响度归一化,然后在时域内线性求和以获得最终的音频片段。图4展示了这一小节的更多细节内容。

▲图4|声音与图像的映射关系©️【深蓝AI】编译

2.3 音频表示

原始音频波形在学习框架内难以处理,主要是因为它们的样本大小大、冗余且缺乏语义抽象。这些正是预训练音频模型的潜在空间众所周知能够相当充分地容纳的方面。在寻求具有足够时间分辨率的语义上有意义的表示时,必须考虑几个因素,因为这些表示所携带的属性将决定生成模型最终享有的音频驱动控制的程度。

在这方面,该研究旨在保留响度和多源解耦。具体来说,音频嵌入中保留了多少信号幅度,以及这些表示是否能够同时编码多个音频源。前者对于将语义作为生成过程的一部分进行加权很有用(例如,在音频领域越响,在视觉领域越突出),而后者是必要的,因为在训练期间很少有真正单源的音频片段。更重要的是,这一特性将在推理时解锁令人兴奋的语义功能,如图1所示。

3.实验

实验部分,由于很难评价声音到图像的生成效果,毕竟这是非常主观的内容,因此作者定义了几个相对来说比较客观的评价指标,同时进行了大量的可视化以及与其他SOTA的声音图像生成模型的对比,来验证本文的可靠性,首先我们一起来看看评价指标:

音频-图像相似度(AIS):评估生成图像与其音频对应物之间的对齐程度,通过计算两个模态实例相关联的潜在嵌入之间的余弦相似度。

图像-图像相似度(IIS):测量生成图像和真实图像之间的语义相似度,使用CLIP的视觉塔来获取图像的潜在表示。

Fréchet Inception Distance(FID):量化生成图像和真实图像分布之间的距离,间接衡量感知质量和多样性。

首先作者进行了数值实验,基于以上的几个指标,在不同的数据集上验证了本文的方法,效果如下所示,冲图5能够看到本文的算法在数值上的表现还是非常不错的。

▲图5|数值实验结果©️【深蓝AI】编译

接下来是本文实验可视化部分。

▲图6|生成效果可视化©️【深蓝AI】编译

▲图7|多段音频生成效果可视化©️【深蓝AI】编译

从图6和图7能够看到,本文的效果在图像和音频的对应关系上能够取得非常出色的成绩,不管处理单段音频的输入,还是处理多段音频的输入,都能够生成较好的符合要求的图像,由此可见本文方法的先进性能。

▲图8|渲染速度实验结果©️【深蓝AI】编译

最后作者验证了最难的场景,也就是多段音频输入和多段图像输入的场景,结果如图8所示,通过图8的可视化效果,相信不用笔者多说各位读者也能够感受到本文方法的优异性能,相信这项工作在未来一定能够极大地推进影视行业的发展,期待该项目的开源!

总结

这篇文章探讨了音频到图像生成模型的训练方法。作者认为,传统上依赖野外视频来获取语义对应的音频-视觉配对数据的方法限制了数据的规模和多样性,影响了数据的实际应用价值。他们提出,利用现代视觉-语言模型(VLMs)和预训练的联合嵌入特征空间,可以从不相交的单模态数据源合成音频-视觉配对,为任何仅含图像的数据集进行声化处理。通过这种方法,作者们成功训练出了性能与现有顶尖模型相当的音频到图像生成模型,能够实现非常magic的音频图像生成效果!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值