Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications

本文提出了一种基于注意力的双流网络解决声源定位问题,从无监督到半监督和有监督学习的转变,以及新数据集的创建。研究了无监督方法的局限性,并验证了少量监督数据的有效性。网络结构包括声视频处理和注意力机制,以及损失函数的详细设计。实验结果展示了模型在不同学习方式下的性能提升和跨模态关联能力。

简介

提出一种无监督算法来解决视觉场景中声源的定位问题。提出带有注意力的双流结构网络,收集了新数据集。由于无监督方法会产生错误,因此将上述方法扩充为有监督和半监督方法。未考虑运动的情况。

贡献

(1)介绍了一种学习框架,利用声音信息引导的注意力机制,从配对的声音和视频帧中定位声源。声源定位可以与给定的声音输入交互。
(2)提出了一个统一的端到端深度卷积神经网络结构,它适应了无监督、半监督和全监督学习。
(3)收集并标注了一个新的声源定位数据集,它提供了有监督的信息,便于定量和定性分析。
(4)定量和定性地证明了基于学习的声源定位不能用纯无监督的方法来正确解决,而是可以用少量的监督数据来解决。
(5)学习的embedding能够表示跨域样本中的语义上下文。
(6)提出了一种声音引导的360°视频和360°内容浏览显著性预测的新应用
(7)给出了相当多有重要意义的参考文献(relate work生理学心理学、音视融合技术)

网络结构

音视频分别处理
在这里插入图片描述

音视网络

声音网络: 以原始波形作为输入,一共10层,其中卷积结构为8层,结构与SoundNet类似,1000个滤波器,之后是GAP,输出1000维特征fs\textbf{f}_sfsfs\textbf{f}_sfs再送入ReLU+FC,输出512维特征h\textbf{h}h
视觉网络: 由特征提取器和定位模块组成,特征提取器使用VGG-16的conv5_3层的512维输出V\textbf{V}V,随后在定位模块与h\textbf{h}h相互作用,返回声源的置信度图和特征向量z\textbf{z}zz\textbf{z}z再通过两个FC层生成fv\textbf{f}_vfv

定位网络

H’×W’×DH’×W’×DH×W×D的视觉特征变形为M×DM×DM×DV=[v1;...;vM]\textbf{V}= [\textbf{v}_1;...;\textbf{v}_M]V=[v1;...;vM],对于每个i∈{ 1,...,M}i∈\{1,...,M\}i{ 1,...,M}
在这里插入图片描述
gattg_\text{att}gatt使用内积操作,可以解释为度量两个向量之间的余弦相似度。
为了抑制负相关,提出了
在这里插入图片描述
其中v和h被应用了L2正则化。

gcosg_\text{cos}gcosgReLug_\text{ReLu}gReLu貌似在后文没出现过,可能gcosg_\text{cos}gcos就是gattg_\text{att}gatt,但不知道为啥要区分写

在这里插入图片描述
我们把视觉特征向量z\textbf{z}z转换为视觉表征fv\textbf{f}_vfv。我们调整fv\textbf{f}_vfv使其与从声音网络中获取的声音特征fs\textbf{f}_sfs具有可比性,如此我们学习特征来共享embedding空间。在学习阶段,反向传播使得z\textbf{z}z与声音上下文相关。重要的是,z\textbf{z}zα\alphaαv\textbf{v}v参数化,而α\alphaα是唯一受声音上下文限制的变量,α\alphaα学会了以包含声音上下文的方式调整z\textbf{z}z,即学习定位声音。

就是说:fv\textbf{f}_vfvz\textbf{z}z经两层FC得来的,而z\textbf{z}z又是由

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值