简介
提出了一种无监督两阶段发声物体定位结构的网络,以音视一致(分类)作为监督信号,使用合成的训练集训练分类网络。第一阶段训练网络,使之输出“认出”发声物体的掩膜,结合掩膜,使用K-means聚类得到N个类别(已知,由数据集确定)的视觉表征,存为字典,同时训练单模态音视特征分类网络;第二阶段延续第一阶段的参数,利用字典得到视觉特征图上各类别的响应激活图,结合第一阶段的发声物体掩膜得到各发声物体特征,最后使用K-L散度缩小发声物体特征与音频分类特征(音频特征+FC)的分布差异。使用融合了发声物体掩膜的各类别掩膜作为定位输出。在有标注框的合成MUSIC数据集和AudioSet上进行了试验。
贡献
(1)提出了在鸡尾酒会场景中对发声目标进行定位,且不需要人工标注
(2)提出了一种新的分步学习框架,该框架以音视一致性作为自监督,首先学习单声源的目标表征,并进一步扩展到发声物体定位。
(3)合成了一些鸡尾酒会视频,并对发声物体边界框进行了标注,以评估目标定位效果。
所提方法
从简单样本集中学习目标表征
简单样本数据集包含正样本–音视同步组合和负样本–音视不同步组合,用ResNet提取特征,使用BCE损失学习正样本音视特征相似性并抑制不同步的负样本。随后为不同目标类别学习表征字典D。首先将第iii个音视组合的定位映射lil_ili二值化到掩膜mi∈{ 0,1}H×Wm_i\in\{0,1\}^{H×W}mi∈{ 0,1}H×W。mim_imi是“认识单目标”的掩膜描述符。用oi=GAP(f(vis)∘mio_i=GAP(f(v^s_i)\circ m_ioi=GAP(f(vis)∘mi (sss指仅有一个发声物体的样本)提取目标潜表征(将单通道二值掩膜乘以特征图,再GAP得到的一组特征向量),∘\circ∘是Hadamard乘法(逐元素相乘)。由于这些表征是从粗糙的位置结果中提取得到的,因此鲁棒性不佳。为了提升表述能力,使用以字典学习的方式学习候选表征的高质量目标描述符。为每个目标表征oio_ioi联合学习K×CK×CK×C的字典D(将掩膜GAP特征向量组oio_ioi聚类后,每个类别的特征均值)和assignment yiy_iyi,每个键dkd^kdk被标识为第kkk个类别中表示目标的字符(512维特征)。使用K-means对视觉特征聚类,得到伪标签。K-means后得到了字典D*,可以在第二阶段中检测潜在目标;得到一组类别assignment yi∗y^*_iyi∗(伪标签),可以指示不同目标类别的伪标签。由于目标定位可以从广义分类中受益,因此,使用L1和生成伪标签的目标分类objective(L(D,yi))针对定位目标来优化模型
lil_ili

该研究提出了一种无监督的两阶段网络结构,用于在音视场景中定位发声物体。通过音视一致性的自监督信号,网络首先学习目标表征,然后进行定位。在合成数据集MUSIC和AudioSet上进行实验,证明了方法的有效性,特别是在无需人工标注的情况下进行多声源定位。
最低0.47元/天 解锁文章
1878

被折叠的 条评论
为什么被折叠?



