Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching_visually guided sound source separation and locali-优快云博客

本文链接：https://blog.youkuaiyun.com/a404NotFound/article/details/121151999

该研究提出了一种无监督的两阶段网络结构，用于在音视场景中定位发声物体。通过音视一致性的自监督信号，网络首先学习目标表征，然后进行定位。在合成数据集MUSIC和AudioSet上进行实验，证明了方法的有效性，特别是在无需人工标注的情况下进行多声源定位。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

提出了一种无监督两阶段发声物体定位结构的网络，以音视一致（分类）作为监督信号，使用合成的训练集训练分类网络。第一阶段训练网络，使之输出“认出”发声物体的掩膜，结合掩膜，使用K-means聚类得到N个类别（已知，由数据集确定）的视觉表征，存为字典，同时训练单模态音视特征分类网络；第二阶段延续第一阶段的参数，利用字典得到视觉特征图上各类别的响应激活图，结合第一阶段的发声物体掩膜得到各发声物体特征，最后使用K-L散度缩小发声物体特征与音频分类特征（音频特征+FC）的分布差异。使用融合了发声物体掩膜的各类别掩膜作为定位输出。在有标注框的合成MUSIC数据集和AudioSet上进行了试验。

贡献

（1）提出了在鸡尾酒会场景中对发声目标进行定位，且不需要人工标注
（2）提出了一种新的分步学习框架，该框架以音视一致性作为自监督，首先学习单声源的目标表征，并进一步扩展到发声物体定位。
（3）合成了一些鸡尾酒会视频，并对发声物体边界框进行了标注，以评估目标定位效果。

所提方法

从简单样本集中学习目标表征

简单样本数据集包含正样本–音视同步组合和负样本–音视不同步组合，用ResNet提取特征，使用BCE损失学习正样本音视特征相似性并抑制不同步的负样本。随后为不同目标类别学习表征字典D。首先将第 $i$ 个音视组合的定位映射 $l_i$ 二值化到掩膜 $mi∈{0,1}H×Wm_i\in\{0,1\}^{H×W}$ 。 $m_i$ 是“认识单目标”的掩膜描述符。用 $oi=GAP(f(vis)∘mio_i=GAP(f(v^s_i)\circ m_i$ ( $s$ 指仅有一个发声物体的样本)提取目标潜表征（将单通道二值掩膜乘以特征图，再GAP得到的一组特征向量）， $∘\circ$ 是Hadamard乘法（逐元素相乘）。由于这些表征是从粗糙的位置结果中提取得到的，因此鲁棒性不佳。为了提升表述能力，使用以字典学习的方式学习候选表征的高质量目标描述符。为每个目标表征 $o_i$ 联合学习 $K \times C$ 的字典D（将掩膜GAP特征向量组 $o_i$ 聚类后，每个类别的特征均值）和assignment $y_i$ ，每个键 $d^k$ 被标识为第 $k$ 个类别中表示目标的字符（512维特征）。使用K-means对视觉特征聚类，得到伪标签。K-means后得到了字典D*，可以在第二阶段中检测潜在目标；得到一组类别assignment $y^*_i$ （伪标签），可以指示不同目标类别的伪标签。由于目标定位可以从广义分类中受益，因此，使用L1和生成伪标签的目标分类objective(L(D,yi))针对定位目标来优化模型

$l_i$ 视觉特征图上发声物体的响应，是利用音视一致作为信号，根据音视特征的余弦相似度训练得到的。
$m_i$ 是用来定位，或可以称为“关注”发声物体的二值掩膜。
$o_i$ 是利用二值掩膜，将发声物体从视觉特征图上“抠”下来，再GAP得到的一组特征向量
字典D则是利用已知的类别数量信息为 $o_i$ 聚类，根据聚类结果计算 $o_i$ 每个类别的特征的均值（中心）

区分性发声物体定位

首先定位图像中所有出现的物体，其中发声物体根据是否出现在发声区域进行选择，并匹配相应音频的类别。通过参考所学目标的表征字典 $D^*$ ，目标位置由视觉特征图 $f(vic)f(v^c_i)$ ( $c$ 指包含多个发声物体的样本)的每个位置和 $D^*$ 中每个表征key $d^k$ 的内积相似度来指代。 $mik=dk⋅f(vic)m^k_i=d^k\cdot f(v^c_i)$ ，（将特征图每个像素下的特征与聚类“字典”的每个类别的向量点乘，代表特征图在不同类别下的响应，相似度高的响应高） $mikm^k_i$ 是第 $i$ 个视觉场景中第 $k$ 个类别预测的目标位置区域，如果场景中不包含属于第 $k$ 个类别的目标，相应的位置映射 $mikm^k_i$ 保持低响应（相似性）。最终获得了K位置映射，即目标不同类别的位置。

为了定位发声物体，去除未发声物体，将与输入的混合声音高度相关的发声区域 $l_i$ 视为一种发声目标过滤器，即 $sik=mik∘lis^k_i=m^k_i\circ l_i$ 。 $siks^k_i$ 为第 $k$ 个类别的发声物体所在位置。若第 $k$ 个物体未发声，即使在图像中可见， $siks^k_i$ 也不会表达出声音区域。发声物体 $vicv^c_i$ 的类别分布可写作 $pviso=softmax([GAP(si1),GAP(si2),...,GAP(siK)])p^{so}_{v_i}=softmax([GAP(s^1_i),GAP(s^2_i),...,GAP(s^K_i)])$ 。
视觉和声音之间的自然同步提供了发声物体类别分布方面的自监督一致性，即同一发声物体的声音特征和视觉外观是一一对应的。通过 $Lc=DKL(pviso∥paiso)L_c=D_{KL}(p^{so}_{v_i}\parallel p^{so}_{a_i})$ 选择性地定位发声目标，其中 $paisop^{so}_{a_i}$ 是由音频事件网络预测的声音 $a_i$ 的类别分布， $D_{KL}$ 是Kullback-Leibler散度。

综上，第二阶段需要学习两个目标，（1）类别未知的发声区域检测（2）已知类别下发声物体定位。 $L_2=L_c+λL_1$ 。得到特定类别 $siks^k_i$ 的位置后，应用softmax来可视化。

$mikm^k_i$ 是视觉特征图的每个像素与每个类别的聚类中心特征向量点乘得到的值，反映了特征图在不同类别下的响应，相似度高的响应高。
$siks^k_i$ 是根据发声物体的响应，在 $mikm^k_i$ 上过滤未发声物体得到的。
最后要使用K-L散度损失，使根据伪标签得到的视觉特征类别分布逼近第一阶段强监督得到的音频特征类别分布

网络结构

在这里插入图片描述

损失函数

位置目标函数
在这里插入图片描述
其中 $l$ 为余弦相似度

实施

合成音乐数据集：随机选择4个不同类别的1秒音视频组合乐器独奏，选择两个音频片段混合，并将这四帧拼接，作为包含四种乐器，两种发声两种不发声的数据集。
bbox标注：为每个乐器手动标注其是否发声
视觉：随机抽取一帧图像，尺寸调整为256后随机裁剪到224。
音频：重采样到16KHz，使用窗口大小为160，步幅为80的Hann窗STFT，得到201×64的log-mel声谱图，得到输入。
目标的二值掩膜的阈值为0.05，目标字典中的每个中心表征被分配给相应的目标类别，用于评估定位

训练

第一阶段交替优化。 在第一阶段的训练中，轮流训练分类和定位目标，基于K-means得到伪标签。由于聚类中心的顺序每次迭代都会变，因此在开始学习分类时，分别对音频和图像网络中的分类器进行了重新初始化。当分类精度饱和或达到最大迭代轮数后停止学习，转为学习定位。IoU/CIoU的阈值τ为所有定位映射预测值的最大值的10%。
训练第一阶段的网络时使用普通数据，训练第二阶段使用合成数据

评估

在这里插入图片描述
$C I o U$ ：特定类别下 $I o U$ 得分的均值， $IoU_k$ 是发声物体区域（是否要求预测类别也属于 $k$ 类？）与第 $k$ 个类的bbox标注的 $I o U$ ，类别为 $k$ 的物体正在发声时 $δ k = 1$ ，否则为 $0$
$N S A$ ：激活值低于阈值 $τ$ 的无声类别位置映射上的平均激活区域， $s^k$ 是第 $k$ 个类的位置映射， $A$ 是位置映射的全部区域

结果

单发声物体定位

在这里插入图片描述

左：没交替训练的全局图像特征、中：交替训练的图像特征、右：交替训练的带掩膜的物体特征
从训练好的视觉网络中提取的特征分布的t-SNE图，当以定位-分类交替学习时，每种音乐的视觉特征区分性更强，其中为带掩膜的物体特征聚类的归一化互信息为0.74（表面区分性强）。比sound of pixel好，因为它对声源变多后的情景处理不好。

多发声物体定位

在这里插入图片描述
（1）模型考虑了物体的类别信息，采用了一种基于类别的音视对齐方法，即Eq。7，而其他方法[3，27]简单地关联了音视特征，不能有区别地定位发声对象。
（2）第一阶段学习到了有效的视觉知识，帮助发现潜在目标，而比较方法[31]不能以混合然后分离的学习方式来处理这类场景。
（3）参考NSA的结果，模型可以过滤无声物体，但DMC[16]必须给定发声物体的数量。虽然[31]NSA也很好，但可能并非成功过滤掉了无声的物体，而是因为通道激活太低，无法检测到物体。

消融实验

损失函数权重 $λ$ ：当在[0.5, 1.0]的范围内变化时影响不大，但超过这个范围影响就大了。这是由于localization objective $L_1$ 相比于分布匹配objective $L_c$ 更容易优化。当λ过大时，定位过拟合；当 $λ$ 过小时，难以合理地检测发声区域并滤波
在这里插入图片描述
交替优化。此交替优化并非第一、第二阶段交替训练，而是在每个阶段内部交替进行定位和分类训练，有交替训练比没有的效果要好。

在这里插入图片描述
簇数量和掩膜阈值。之前的实验将簇数量设置为数据集类别数量。又测试了不同的聚类个数和不同的掩膜阈值。为区分定位，将多个簇聚合到一个特定类别。超参、类别数目都不影响

第二阶段训练设置。定位损失 $L_1$ ，音视一致性损失 $L_c$ ，无声区抑制Prod。Prod很重要，因为在合成数据集上有两种无声、两种有声乐器，若没有Prod则都会产生很强的响应，导致音视类别匹配失败，效果差。 $L_c$ 促进了定位性能，表明一致性有用。
在这里插入图片描述
预训练模型。若无预训练，Music-Solo上的NMI急剧下降，可能是MUSIC数据集包含的场景过少，过拟合了。AudioSet-Instrument从头训练的效果表现良好。

失败的情况

（1）单个视觉目标但有多种声音
（2）专辑封面
（3）小目标

代码

第一阶段

在这里插入图片描述

(1)训练定位网络，计算av_output的BCE损失，10轮后才执行第②~④步
(2)得到mask后的特征向量：
	(1)取出av_map，转为二值掩膜
	(2)膨胀
	(3)二值掩膜作用到原特征图fv上，进行GAP，形成特征向量组[B, 512]
(3)用K-means聚类，得到每个向量的伪标签
	将所有向量按类别归类，为每个类别计算其特征向量均值，将这组向量作为字典保存
(4)训练分类网络
	(1)再次计算fv和fa
	(2)初始化音视分类网络的FC层
	(3)使用伪标签作为监督信息，单独的优化器优化FC层，CE Loss训练音、视分类网络，使用定位网络的优化器优化除FC之外的层

第二阶段

(1)将音视样本输入到与第一阶段结构相同的网络中，获得fv、fa、av_map和av_output
(2)读取第一阶段保存的N类特征向量均值字典，将视觉ResNet输出的特征图每个像素下的特征向量 与 字典中每一类特征向量计算点乘，得到尺寸与特征图一致，通道数等于类别数的一组“软掩膜”。
(3)将av_map作用到软掩膜上，去除无声物体，进行GAP，得到每个样本各类别log softmax值
(4)将音视样本输入到第一阶段训练完的模型中，获取到音频分类softmax概率置信值
(5)计算(4)和(3)的K-L散度损失（作者称为分类损失）
(6)分别为(1)中av_output的正负样本（因为负样本扩增了4倍）计算BCE损失（前1000轮权重为0.25，之后就不算入总损失）（作者称为定位损失）
正确率衡量标准为av_output与GT的正确率

https://gitee.com/reallty/Discriminative-Sounding-Objects-Localization