Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications

最新推荐文章于 2025-10-12 13:18:02 发布

原创

最新推荐文章于 2025-10-12 13:18:02 发布 · 658 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #自然语言处理

本文提出了一种基于注意力的双流网络解决声源定位问题，从无监督到半监督和有监督学习的转变，以及新数据集的创建。研究了无监督方法的局限性，并验证了少量监督数据的有效性。网络结构包括声视频处理和注意力机制，以及损失函数的详细设计。实验结果展示了模型在不同学习方式下的性能提升和跨模态关联能力。

简介

提出一种无监督算法来解决视觉场景中声源的定位问题。提出带有注意力的双流结构网络，收集了新数据集。由于无监督方法会产生错误，因此将上述方法扩充为有监督和半监督方法。未考虑运动的情况。

贡献

（1）介绍了一种学习框架，利用声音信息引导的注意力机制，从配对的声音和视频帧中定位声源。声源定位可以与给定的声音输入交互。
（2）提出了一个统一的端到端深度卷积神经网络结构，它适应了无监督、半监督和全监督学习。
（3）收集并标注了一个新的声源定位数据集，它提供了有监督的信息，便于定量和定性分析。
（4）定量和定性地证明了基于学习的声源定位不能用纯无监督的方法来正确解决，而是可以用少量的监督数据来解决。
（5）学习的embedding能够表示跨域样本中的语义上下文。
（6）提出了一种声音引导的360°视频和360°内容浏览显著性预测的新应用
（7）给出了相当多有重要意义的参考文献（relate work生理学心理学、音视融合技术）

网络结构

音视频分别处理
在这里插入图片描述

音视网络

声音网络： 以原始波形作为输入，一共10层，其中卷积结构为8层，结构与SoundNet类似，1000个滤波器，之后是GAP，输出1000维特征 $fs\textbf{f}_s$ ， $fs\textbf{f}_s$ 再送入ReLU+FC，输出512维特征 $h\textbf{h}$ 。
视觉网络： 由特征提取器和定位模块组成，特征提取器使用VGG-16的conv5_3层的512维输出 $V\textbf{V}$ ，随后在定位模块与 $h\textbf{h}$ 相互作用，返回声源的置信度图和特征向量 $z\textbf{z}$ ， $z\textbf{z}$ 再通过两个FC层生成 $fv\textbf{f}_v$

定位网络

将 $H ’ \times W ’ \times D$ 的视觉特征变形为 $M \times D$ 的 $V=[v1;...;vM]\textbf{V}= [\textbf{v}_1;...;\textbf{v}_M]$ ，对于每个 $i∈\{1,...,M\}$ ，
在这里插入图片描述
$gattg_\text{att}$ 使用内积操作，可以解释为度量两个向量之间的余弦相似度。
为了抑制负相关，提出了

其中v和h被应用了L2正则化。

$gcosg_\text{cos}$ 和 $gReLug_\text{ReLu}$ 貌似在后文没出现过，可能 $gcosg_\text{cos}$ 就是 $gattg_\text{att}$ ，但不知道为啥要区分写

在这里插入图片描述
我们把视觉特征向量 $z\textbf{z}$ 转换为视觉表征 $fv\textbf{f}_v$ 。我们调整 $fv\textbf{f}_v$ 使其与从声音网络中获取的声音特征 $fs\textbf{f}_s$ 具有可比性，如此我们学习特征来共享embedding空间。在学习阶段，反向传播使得 $z\textbf{z}$ 与声音上下文相关。重要的是， $z\textbf{z}$ 由 $α\alpha$ 和 $v\textbf{v}$ 参数化，而 $α\alpha$ 是唯一受声音上下文限制的变量， $α\alpha$ 学会了以包含声音上下文的方式调整 $z\textbf{z}$ ，即学习定位声音。