简介
进一步改进了音视特征聚类网络。目标函数为样本与聚类中心的加权距离之和(与之前类似),权重仍为距离的softmax,距离度量标准换成了L2;针对无法预知声源数目的情形,根据泊松分布,提出了声音分离损失,能够根据音频预测声源数目。聚类损失换成了contrastive损失。在ESC-50声音场景分类、SoundNet-Flickr声音定位、MIT-MUSIC声音分离任务上表现较好。
贡献
1.开发了一个视听学习模型,能够输出单模态表征,音视对齐。将软聚类模块作为模式检测器,在两种模态共享空间中,通过结构化对齐目标 来关联聚类后的pattern。
2.提出课程音视学习策略,其难度级别由场景中声源的数量决定,容易训练并提高了性能。还建立了用于估计音视场景复杂度的计数模型。
3.音视声音定位方面有很大提升。为声音分离提供有效的视觉表征。性能与有监督相当。
网络结构

视觉:VGG16,输出16×16×512
声音:VGGish,输出64×54×512,移除了最后的最大池化层和最后三个全连接层。
聚类
目标函数

jjj是指第jjj个簇,kkk是音源数量,ddd是特征与聚类中心的欧氏距离,www通过softmax而来,是为距离分配权重,

超参β>0β>0β>0,称为刚度参数,控制assignment的可伸缩性。论文中β=30β=30β=30

cjc_jcj为聚类中心,每个中心对应于特定模态成分,例如某个物体或声音。
通过比较每个音视频组合的匹配程度可以确定是否对齐,具体地,是最小化音视中心的距离

与音频特征聚类中心相关的视觉特征聚类中心可以表示为

对应的www可以变形回H×WH×WH×W并将其作为与音频相关的视觉定位掩膜
复杂度估计
由于音视场景的复杂性对于课程训练至关重要,因此学习建模和估计给定场景中的声源数量是值得的。计数数据yiy_iyi的泊松离散概率分布由P(Yi=yi)=e−λiλiyiyi!P(Y_i=y_i)=\frac{e^{-\lambda_i}\lambda^{y_i}_i}{y_i!}P(Yi=y

本文介绍了一种改进的音视特征聚类网络,采用L2距离度量和Contrastive损失,能适应未知声源数量。模型通过课程学习策略优化,并在ESC-50等任务上表现出色。关键创新包括视听学习模型、声源计数模型及视觉引导的声音分离。
最低0.47元/天 解锁文章
1943

被折叠的 条评论
为什么被折叠?



