Curriculum Audiovisual Learning

本文介绍了一种改进的音视特征聚类网络,采用L2距离度量和Contrastive损失,能适应未知声源数量。模型通过课程学习策略优化,并在ESC-50等任务上表现出色。关键创新包括视听学习模型、声源计数模型及视觉引导的声音分离。

简介

进一步改进了音视特征聚类网络。目标函数为样本与聚类中心的加权距离之和(与之前类似),权重仍为距离的softmax,距离度量标准换成了L2;针对无法预知声源数目的情形,根据泊松分布,提出了声音分离损失,能够根据音频预测声源数目。聚类损失换成了contrastive损失。在ESC-50声音场景分类、SoundNet-Flickr声音定位、MIT-MUSIC声音分离任务上表现较好。

贡献

1.开发了一个视听学习模型,能够输出单模态表征,音视对齐。将软聚类模块作为模式检测器,在两种模态共享空间中,通过结构化对齐目标 来关联聚类后的pattern。
2.提出课程音视学习策略,其难度级别由场景中声源的数量决定,容易训练并提高了性能。还建立了用于估计音视场景复杂度的计数模型。
3.音视声音定位方面有很大提升。为声音分离提供有效的视觉表征。性能与有监督相当。

网络结构

在这里插入图片描述
视觉:VGG16,输出16×16×512
声音:VGGish,输出64×54×512,移除了最后的最大池化层和最后三个全连接层。

聚类

目标函数
在这里插入图片描述
jjj是指第jjj个簇,kkk是音源数量,ddd是特征与聚类中心的欧氏距离,www通过softmax而来,是为距离分配权重,
在这里插入图片描述
超参β>0β>0β>0,称为刚度参数,控制assignment的可伸缩性。论文中β=30β=30β=30
在这里插入图片描述
cjc_jcj为聚类中心,每个中心对应于特定模态成分,例如某个物体或声音。
通过比较每个音视频组合的匹配程度可以确定是否对齐,具体地,是最小化音视中心的距离
在这里插入图片描述
与音频特征聚类中心相关的视觉特征聚类中心可以表示为
在这里插入图片描述
对应的www可以变形回H×WH×WH×W并将其作为与音频相关的视觉定位掩膜

复杂度估计

由于音视场景的复杂性对于课程训练至关重要,因此学习建模和估计给定场景中的声源数量是值得的。计数数据yiy_iyi的泊松离散概率分布由P(Yi=yi)=e−λiλiyiyi!P(Y_i=y_i)=\frac{e^{-\lambda_i}\lambda^{y_i}_i}{y_i!}P(Yi=y

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值