Curriculum Audiovisual Learning

最新推荐文章于 2024-07-19 20:55:13 发布

原创

最新推荐文章于 2024-07-19 20:55:13 发布 · 379 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #人工智能

本文介绍了一种改进的音视特征聚类网络，采用L2距离度量和Contrastive损失，能适应未知声源数量。模型通过课程学习策略优化，并在ESC-50等任务上表现出色。关键创新包括视听学习模型、声源计数模型及视觉引导的声音分离。

简介

进一步改进了音视特征聚类网络。目标函数为样本与聚类中心的加权距离之和（与之前类似），权重仍为距离的softmax，距离度量标准换成了L2；针对无法预知声源数目的情形，根据泊松分布，提出了声音分离损失，能够根据音频预测声源数目。聚类损失换成了contrastive损失。在ESC-50声音场景分类、SoundNet-Flickr声音定位、MIT-MUSIC声音分离任务上表现较好。

贡献

1.开发了一个视听学习模型，能够输出单模态表征，音视对齐。将软聚类模块作为模式检测器，在两种模态共享空间中，通过结构化对齐目标来关联聚类后的pattern。
2.提出课程音视学习策略，其难度级别由场景中声源的数量决定，容易训练并提高了性能。还建立了用于估计音视场景复杂度的计数模型。
3.音视声音定位方面有很大提升。为声音分离提供有效的视觉表征。性能与有监督相当。

网络结构

在这里插入图片描述
视觉：VGG16，输出16×16×512
声音：VGGish，输出64×54×512，移除了最后的最大池化层和最后三个全连接层。

聚类

目标函数
在这里插入图片描述
$j$ 是指第 $j$ 个簇， $k$ 是音源数量， $d$ 是特征与聚类中心的欧氏距离， $w$ 通过softmax而来，是为距离分配权重，

超参 $β > 0$ ，称为刚度参数，控制assignment的可伸缩性。论文中 $β = 30$

$c_j$ 为聚类中心，每个中心对应于特定模态成分，例如某个物体或声音。
通过比较每个音视频组合的匹配程度可以确定是否对齐，具体地，是最小化音视中心的距离
在这里插入图片描述
与音频特征聚类中心相关的视觉特征聚类中心可以表示为

对应的 $w$ 可以变形回 $H \times W$ 并将其作为与音频相关的视觉定位掩膜