《AudioCLIP: Extending CLIP to Image, Text and Audio》中文校对版

文章汉化系列目录



摘要

 摘要:在过去,快速发展的声音分类领域极大地受益于其他领域方法的应用。如今,我们观察到将特定领域的任务和方法融合在一起的趋势,这为研究社区带来了新的卓越模型。在本研究中,我们提出了一个扩展版的 CLIP 模型,该模型除了处理文本和图像外,还可以处理音频。我们将 ESResNeXt 音频模型与 CLIP 框架结合,使用 AudioSet 数据集进行训练。这样的组合使得该模型能够进行双模态和单模态的分类和查询,同时保留 CLIP 在零样本推理中对未见数据集进行泛化的能力。AudioCLIP 在环境声音分类(ESC)任务中达到了新的最先进成果,在 UrbanSound8K 数据集上达到了 90.07% 的准确率,在 ESC-50 数据集上达到了 97.15% 的准确率,超过了其他方法。此外,它还在相同数据集上的零样本 ESC 任务中建立了新的基准(分别为 68.78% 和 69.40%)。最后,我们还评估了所提出模型的跨模态查询性能,以及完全训练和部分训练对结果的影响。为了确保可重复性,我们公开了代码。

引言

 声音分类领域的最新进展提供了许多功能强大的音频模型,并展示了令人印象深刻的效果。广泛知名的数据集(如 AudioSet [7]、UrbanSound8K [25] 和 ESC-50 [19])的结合,以及特定领域和跨领域技术的应用,促成了专注于音频的研究方法和技术的快速发展 [15,10,30]。以往,研究人员主要集中于仅利用可听模态的分类任务。然而,近年来,多模态方法在音频相关任务中的应用越来越受欢迎 [14,2,34]。在应用于特定音频任务时,这种方法通常会结合文本或视觉模态一起使用音频。尽管音频与额外模态的结合并不罕见,但在音频领域中,三种以上模态的组合仍较为少见。

 然而,质量标注数据的数量有限,限制了该领域在单模态和多模态方向的发展。这种数据缺乏为研究带来了挑战,并引发了对基于文本描述的对比学习方法的零样本和小样本学习方法的兴趣 [13,32,33]。在我们的工作中,我们提出了一种将高性能音频模型(ESResNeXt [10])与一个对比文本-图像模型(即 CLIP [21])相结合的方法,从而获得了一个三模态的混合架构。基础的 CLIP 模型在原始论文 [21] 中被称为具有“零样本推理”能力,展示了出色的性能和强大的领域适应能力。为了与 CLIP 的术语保持一致,我们在此使用“零样本”一词按照 [21] 中定义的意义进行说明。

 如我们将看到的,在训练过程中联合使用三种模态,不仅在环境声音分类任务中超越了之前的模型,还将基础架构的零样本能力扩展到了音频模态,并引入了使用文本、图像和音频任意组合进行跨模态查询的能力。本文的剩余部分安排如下:第2节讨论当前处理音频的单独方法以及与额外模态的联合方法。然后,我们在第3节描述构成我们所提混合架构基础的模型,在第4节介绍其训练和评估方法,并在第5节呈现获得的结果。最后,在第6节中,我们总结了我们的工作并指出了后续的研究方向。

2 相关工作

 本节概述了我们研究中涉及的音频相关任务和方法。首先介绍环境声音分类任务,然后通过描述现有的多模态处理方法,将其与零样本分类联系起来。环境声音分类任务的目标是为日常生活中常见的声音类别(例如“闹钟”、“汽车喇叭”、“风镐”、“鼠标点击”、“猫”)分配正确的标签。为成功解决这一任务,提出了多种方法,包括在静态 [18,24,32,9,15,17,33,8,30] 或可训练的时间-频率转换 [23,10] 上使用一维或二维卷积神经网络(CNN)来处理原始音频。最早的研究依赖于任务特定的模型设计,而后来的研究结果则表明从视觉领域进行领域适应是有益的 [9,17,10]。

 然而,视觉模态最初是以顺序的方式使用的,即每次只处理一种模态。多模态的联合使用首先出现在视频相关任务 [14,34,6] 中,之后才被应用于声音分类任务 [13,31]。尽管这些方法具有多模态设计,但最多只同时使用了两种模态,而最新研究表明,更多模态的使用是有利的 [2,1]。上述的多模态方法的共同关键思想是对比学习。这一技术属于自监督学习范畴,具有克服标注质量数据不足的优势,使得可以将基于对比学习的训练应用于零样本分类任务 [13,32,33]。

 总而言之,我们提出的模型使用对比学习来对文本、视觉和听觉模态进行训练,能够执行特定模态的分类,或更为广泛的查询,并能够在零样本推理环境中泛化到未见的数据集。

3 模型

 本节描述了构成所提出模型的关键组件及其处理输入的方式。从宏观角度来看,我们的混合架构结合了用于视觉和文本模态的基于 ResNet 的 CLIP 模型 [21],以及用于听觉模态的 ESResNeXt 模型 [10],如图1所示。
在这里插入图片描述

图1. 所提出的 AudioCLIP 模型概述:左侧显示了文本-图像模型 CLIP 的工作流程。通过对文本和图像头的联合训练,CLIP 学会在共享的多模态嵌入空间中对齐相同概念的表示。右侧显示了音频模型 ESResNeXT。这里加入了听觉模态,使该模型可以同时处理三种模态,实现多模态的交互。

3.1 CLIP

 在概念上,CLIP 模型由两个子网络组成:文本编码头和图像编码头。CLIP 模型的两个部分在自然语言监督下进行了联合预训练 [21]。这样的训练设置使得模型能够将分类能力泛化到属于先前未见数据集的图像样本,而无需额外的微调。对于文本编码部分,使用了略微修改的 Transformer [29] 架构 [21,22]。在所选的 12 层模型中,输入文本采用小写字节对编码表示,词汇量为 49,408 [21]。由于计算限制,最大序列长度被裁剪至 76 [21]。

 在 CLIP 模型的图像编码部分,考虑了两种不同的架构。一种是 Vision Transformer (ViT) [5,21],其架构使其与文本头相似。另一种选择是经过修改的 ResNet-50 [11],其中的全局平均池化层被替换为 QKV 注意力层 [21]。如我们在 3.1 节中所提到的,由于 ResNet 架构相比 ViT 架构具有较低的计算复杂度,我们在所提出的混合模型中选择了基于 ResNet 的 CLIP 变体。

 对于大小为 N N N 的输入批次(文本-图像对),CLIP 的两个子网络分别生成对应的嵌入,并将其线性映射到大小为 1,024 的多模态嵌入空间 [21]。在这种设置下,CLIP 学会最大化匹配的文本和视觉表示之间的余弦相似度,同时最小化错误配对之间的相似度。这是通过在相似度度量上使用对称交叉熵损失实现的 [21]。

3.2 ESResNeXt

 在音频编码部分,我们选择应用基于 ResNeXt-50 [3] 架构的 ESResNeXt 模型 [10],该模型包含基于复杂频率 B 样条小波 [26] 的可训练时频变换。所选模型包含适量的参数(约 3000 万),在大型音频数据集 AudioSet [7] 上表现优异,并在 UrbanSound8K [25] 和 ESC-50 [19] 数据集上提供了最先进的分类效果。此外,ESResNeXt 模型支持多通道音频输入的隐式处理,并在抗加性白高斯噪声和采样率降低方面提供了更高的鲁棒性 [10]。

### 解决 'ImageClip' 对象没有 'set_audio' 属性的错误 当遇到 `'ImageClip'` 对象没有 `set_audio` 属性的错误时,这通常意味着使用的库本不支持该方法或对象本身不是预期类型的实例。 在 MoviePy 库中,音频设置应通过 `set_audio()` 方法完成。然而,此方法适用于 `VideoFileClip` 或其他视频剪辑类而不是 `ImageClip` 类[^1]。对于静态图像 (`ImageClip`) 来说,默认情况下并不具备直接处理音频的功能。 为了给图片添加背景音乐或其他形式的声音轨道,可以创建一个包含声音文件的 ` AudioClip` 实例并与 ` ImageClip` 组合形成新的复合媒体片段: ```python from moviepy.editor import * # 加载一张图片并指定持续时间 image_clip = ImageClip("path_to_image.jpg", duration=5) # 创建 AudioFileClip 用于加载音频文件 audio_background = AudioFileClip("path_to_audio.mp3") # 将音频裁剪至与图片相同的长度 new_audioclip = audio_background.subclip(0, image_clip.duration) # 设置图片的音频属性 video_with_sound = image_clip.set_audio(new_audioclip) # 导出最终带声效的结果 video_with_sound.write_videofile("output_video.mp4", codec='libx264', fps=24) ``` 上述代码展示了如何正确地向静止图像应用音频效果而不触发不存在的方法调用异常。注意这里并没有直接修改原始 `ImageClip` 的任何内部结构;而是构建了一个具有所需特性的新实体来保存更改后的状态。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值