Learning to Localize Sound Sources in Visual Scenes: Analysis and Applications

本文提出了一种基于注意力的双流网络解决声源定位问题,从无监督到半监督和有监督学习的转变,以及新数据集的创建。研究了无监督方法的局限性,并验证了少量监督数据的有效性。网络结构包括声视频处理和注意力机制,以及损失函数的详细设计。实验结果展示了模型在不同学习方式下的性能提升和跨模态关联能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

提出一种无监督算法来解决视觉场景中声源的定位问题。提出带有注意力的双流结构网络,收集了新数据集。由于无监督方法会产生错误,因此将上述方法扩充为有监督和半监督方法。未考虑运动的情况。

贡献

(1)介绍了一种学习框架,利用声音信息引导的注意力机制,从配对的声音和视频帧中定位声源。声源定位可以与给定的声音输入交互。
(2)提出了一个统一的端到端深度卷积神经网络结构,它适应了无监督、半监督和全监督学习。
(3)收集并标注了一个新的声源定位数据集,它提供了有监督的信息,便于定量和定性分析。
(4)定量和定性地证明了基于学习的声源定位不能用纯无监督的方法来正确解决,而是可以用少量的监督数据来解决。
(5)学习的embedding能够表示跨域样本中的语义上下文。
(6)提出了一种声音引导的360°视频和360°内容浏览显著性预测的新应用
(7)给出了相当多有重要意义的参考文献(relate work生理学心理学、音视融合技术)

网络结构

音视频分别处理
在这里插入图片描述

音视网络

声音网络: 以原始波形作为输入,一共10层,其中卷积结构为8层,结构与SoundNet类似,1000个滤波器,之后是GAP,输出1000维特征fs\textbf{f}_sfsfs\textbf{f}_sfs再送入ReLU+FC,输出512维特征h\textbf{h}h
视觉网络: 由特征提取器和定位模块组成,特征提取器使用VGG-16的conv5_3层的512维输出V\textbf{V}V,随后在定位模块与h\textbf{h}h相互作用,返回声源的置信度图和特征向量z\textbf{z}zz\textbf{z}z再通过两个FC层生成fv\textbf{f}_vfv

定位网络

H’×W’×DH’×W’×DH×W×D的视觉特征变形为M×DM×DM×DV=[v1;...;vM]\textbf{V}= [\textbf{v}_1;...;\textbf{v}_M]V=[v1;...;vM],对于每个i∈{1,...,M}i∈\{1,...,M\}i{1,...,M}
在这里插入图片描述
gattg_\text{att}gatt使用内积操作,可以解释为度量两个向量之间的余弦相似度。
为了抑制负相关,提出了
在这里插入图片描述
其中v和h被应用了L2正则化。

gcosg_\text{cos}gcosgReLug_\text{ReLu}gReLu貌似在后文没出现过,可能gcosg_\text{cos}gcos就是gattg_\text{att}gatt,但不知道为啥要区分写

在这里插入图片描述
我们把视觉特征向量z\textbf{z}z转换为视觉表征fv\textbf{f}_vfv。我们调整fv\textbf{f}_vfv使其与从声音网络中获取的声音特征fs\textbf{f}_sfs具有可比性,如此我们学习特征来共享embedding空间。在学习阶段,反向传播使得z\textbf{z}z与声音上下文相关。重要的是,z\textbf{z}zα\alphaαv\textbf{v}v参数化,而α\alphaα是唯一受声音上下文限制的变量,α\alphaα学会了以包含声音上下文的方式调整z\textbf{z}z,即学习定位声音。

就是说:fv\textbf{f}_vfvz\textbf{z}z经两层FC得来的,而z\textbf{z}z又是由α\alphaαv\textbf{v}v得到的,α\alphaα又与声音有关,因此网络可以学习定位声音,且能够使fv\textbf{f}_vfvfs\textbf{f}_sfs具有相关性

损失函数

无监督学习

使用视听一致的方法创建正例和负例(音视同源为正样本,音视不同则为负样本),将视频帧中的fv\textbf{f}_vfv当作query,给定queries与正例和负例,使用triplet损失。
损失被设计为利用query将正样本映射到尽可能与相似位置,而将负样本映射到较远的位置。
triplet网络这样计算两者的距离:
在这里插入图片描述
T(⋅)T(\cdot)T()代表triplet网络,(x,x+,x−)(x, x^+, x^-)(x,x+,x)代表query,正样本和负样本。为了强加约束d+<d−d^+<d^-d+<d,使用distance ratio loss。无监督损失函数定义为:
在这里插入图片描述
在这里插入图片描述
对于正例,无监督损失强制使fv\textbf{f}_vfvfs\textbf{f}_sfs相似,为了使视觉特征z\textbf{z}z生成这样的fv\textbf{f}_vfv,权重ααα需要通过h\textbf{h}hv\textbf{v}v之间的相关性来选择因果位置。这导致h\textbf{h}hv\textbf{v}v共享embedding空间,并且fs\textbf{f}_sfs还需要编码与视频帧相关的上下文信息。

半监督学习

L(fv,fs+,fs−,α,αGT)=LU(fv,fs+,fs−)+λ(αGT)⋅LS(α,αGT)L(\textbf{f}_v,\textbf{f}_s^+,\textbf{f}_s^-,\alpha,\alpha_{\text{GT}})=L_U(\textbf{f}_v,\textbf{f}_s^+,\textbf{f}_s^-)+\lambda(\alpha_{\text{GT}})\cdot L_S(\alpha,\alpha_{\text{GT}})L(fv,fs+,fs,α,αGT)=LU(fv,fs+,fs)+λ(αGT)LS(α,αGT)
LUL_ULULSL_SLS分别代表无监督和监督学习的损失,αGT\alpha_{\text{GT}}αGT代表GT\text{GT}GT注意力映射,λ(⋅)\lambda(\cdot)λ()是控制数据监督类型的函数。无监督损失同上,监督损失为:LS(α,αGT)=−∑iαGT,ilog⁡(αi)L_S(\alpha,\alpha_\text{GT})=-\sum_i\small{\alpha_{\text{GT},i}\log(\alpha_i)}LS(α,αGT)=iαGT,ilog(αi)iii是注意力映射的位置索引,αGT,i\alpha_{\text{GT},i}αGT,i是二进制值。

实施

训练

优化器:Adam,批大小:30,学习率1e-4,图像尺寸为320×320
数据集:Flickr-SoundNet,包含200万对无约束视频,使用随机挑选的144k对来训练

测试

将bbox标注转换为二值图{bj}j=1N\{\text{b}_j\}^N_{j=1}{bj}j=1N,N是主体的数量。我们通过跨主体压扁{bj}\{\text{b}_j\}{bj}提取得分图g\text{g}g,但将共识(consensus)视作g=min⁡(∑j=1Nbj#consensus,1)\textbf{g}=\min(\sum^N_{j=1}\frac{\textbf{b}_j}{\text{\#consensus}},1)g=min(j=1N#consensusbj,1),其中#consensus≤N\text{\#consensus}≤N#consensusN是达成协议的最低意见数。对于得分图g\textbf{g}g的每个像素,我们计算正样本的二进制值(∑j=1nbj\sum^n_{j=1}{\textbf{b}_j}j=1nbj)。如果大于等于#consensus\text{\#consensus}#consensusg\textbf{g}g的像素置为满分,即1。否则置为小于1的比例分数。由于是三个人打标签,根据多数原则将#consensus\text{\#consensus}#consensus设为2。给定加权得分图g\textbf{g}g和预测的位置响应ααα,将cIoU定义为
在这里插入图片描述
其中iii指映射的像素索引,τττ指确定每个像素置信值的阈值,A(τ)={i∣αi>τ}A(τ)=\{i|α_i>τ\}A(τ)={iαiτ}G(τ)={i∣gi>0}G(τ)=\{i|g_i>0\}G(τ)={igi0}AAA是注意力值高于阈值τττ的一组像素,GGG是在加权GT中被分类为正例的一组像素,分母指A(τ)A(τ)A(τ)GGG的union的加权版本。

这其实就是:ggg:三个人画GT框,每个被框住的像素记1分,计算三个框的总得分,结果除以2,高于1的记为1。cIoU是:分子:attention图在ggg上的累积得分,分母:这张图ggg的总分+除了ggg区域以外attention区域的像素数量

结果

监督/半监督

无监督学习:在metric上表现较好,但存在语义间不匹配的现象。是由于模型在开始时随机关注了错误的位置,但在弱监督学习的metric上确是正确的,在后期训练时不断增强这种关联。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
无监督:10k就已学到知识,144k时有明显改善
有监督:2.5k就已取得比无监督更好的效果。模型从监督和无监督的数据组合中受益更多,1k监督就已取得较好效果,而简单增加监督样本的数量不能很好的改善。未标注数据中存在互补信息,有利于模型的泛化。
无监督比例稍大一些效果更好

环境声音的影响

使用ReLU+Softmax能够更好抑制环境声音带来的图像强激活值。这是因为注意力图是基于归一化向量之间的内积计算的,归一化向量的范围在[−1,1]内

学习的embedding

原文:
学到的embeddings。 我们的网络生成可用于分析学到表征的有效性的embedding。正如第四节所讨论的,当声音和图像具有相似的语义内容时,我们的网络被训练成 通过映射到学到的embedding空间中的接近位置 来从声音和图像 获得相似的预测。例如,如果学习得当,足球比赛图像的嵌入将接近于其他体育游戏的embedding,而不是乐器课的embedding。为了便于说明,我们稍微滥用了视觉和声音嵌入的符号作为函数形式,即fv(Xv,Xs)\textbf{f}_v(X_v, X_s)fv(Xv,Xs)fs(Xs)\textbf{f}_s(X_s)fs(Xs),其中X{v,s}X_{\{v, s\}}X{v,s}表示一个输入样本XXX的视频帧和声波。我们注意到,这两个嵌入被鼓励拥有一个共享空间,允许它们通过度量学习进行比较。因此,我们可以直接比较由不同成分形构成的embedding。我们在表4中的Set1子集上进行了所有的实验,并将其记为数据库DDD。我们分析了表6中embedding语义质量,进行了基于声音query的视频检索和基于视频query的声音检索,并报告了语义上有意义的匹配成功率。给定query XXX,我们通过测量数据库DDD中样本YYY的距离d(fs(Xs),fv(Yv,Ys))d(\textbf{f}_s(X_s), \textbf{f}_v(Y_v, Y_s))d(fs(Xs),fv(Yv,Ys))来执行k近邻搜索,即Y∈DY∈DYD,其中d(⋅)d(\cdot)d()表示余弦距离,因为我们根据经验发现它的性能更高。然而,由于我们没有GT信息,所以我们使用伪标签方法,根据模态类型从预训练的VGG-16和SoundNet中获得每个样本的前10个标签预测,并将它们用作伪标签。当query和k近邻之间的伪标签的交集不为空(即,如果它们至少具有一个共享预测标签)时,我们认为匹配成功,否则认为匹配失败。我们在随机试验的基础上计算随机机会(chance)(由于真实类别未知,无法获得理想的随机机会)。对于每个样本,我们从我们的数据库中随机选择10个样本进行实验。我们重复这个实验100次,并报告平均分数。两个交叉模态,即图像→音频和音频→图像,执行相同的过程。性能TOP-20<TOP-15<TOP-10的原因是,在有限检索集中,存在样本数小于n的类。如果n<<k,则在检索到的前k个样本中会出现更多具有无关内容的样本。
图11展示了语义上与查询匹配的相邻样本。在第三排,我们的模型不仅定位了彼此靠得很近的“足球”样本,还映射了“一群人”或“绿地上的一群人”的场景,在这里query也可以被感知地看作是草地上的一群人。
此外,在图12中,我们还分析了embedding fv\textbf{f}_vfv在不同输入下的关联行为。具体地说,在给定query XXX的情况下,我们执行与上述相同的实验,但使用d(fv(Xv,Xs),fv(Xv,Ys))d(\textbf{f}_v(X_v,X_s), \textbf{f}_v(X_v, Y_s))d(fv(Xv,Xs),fv(Xv,Ys))d(fv(Xv,Xs),fv(Yv,Xs))d(\textbf{f}_v(X_v,X_s), \textbf{f}_v(Y_v, X_s))d(fv(Xv,Xs),fv(Yv,Xs))。对于第一种情况,根据数据库中的样本,由于每个帧相同但对应的声音不同,所以与query最近的邻居是那些具有与query相似的音频信息的邻居。注意,这与声音检索不同,因为通过关联fv(Xv,Ys)\textbf{f}_v(X_v,Y_s)fv(Xv,Ys),我们期望丢弃YsY_sYs中与XvX_vXv无关的上下文信息。第二种情况是保持声音不变,但使用不同的帧。在此场景中,我们期望丢弃与XsX_sXs中声音上下文无关的YvY_vYv的视觉上下文信息,从而检索到所选的语义上下文。实验结果表明,该模型在有条件输入的情况下具有较好的语音定位性能,并能学习语义视听对应关系。

给定query XXX(包含视频帧和声音),通过测量样本YYY的余弦距离d(fs(Xs),fv(Yv,Ys))d(\textbf{f}_s(X_s), \textbf{f}_v(Y_v, Y_s))d(fs(Xs),fv(Yv,Ys))来进行k近邻搜索。即,给定一个声音特征fs\textbf{f}_sfs,在对应数据集中搜索对应的音视融合特征fv\textbf{f}_vfv。当“query”的图像/声音类别和“近邻”的图像/声音的预测类别之间至少有一组相同时认为匹配成功,反之失败。性能TOP-20<TOP-15<TOP-10的原因是,在有限检索集中,存在样本数小于n的类。如果n<<k,则在检索到的前k个样本中会出现更多具有无关内容的样本。
当使用query的图像Y的声音或query的声音Y的图像时,也能找到与query相匹配的Y。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值