简介
提出深度多模态聚类方法,提出一种聚类方法,使用视听一致数据集,通过优化max-margin损失来将为每个音视样本划分类别,并得出簇的中心。聚类的中间变量是一个热力图,可以观察到网络关注的位置。为音视频度量余弦相似度可以确定两者的相互关系。
论文的任务
为音视特征聚类,以分类准确率作为指标分析音视频特征聚类效果;使用热力图进行声源定位任务;可视化音频和对应声谱图,试图理解其相关性。
网络结构
视觉子网使用VGG16,音频子网使用VGGish。
深度多模态聚类(DMC)
- 输入:每个模态的特征向量:{u1a,u2a,...,uqa,∣uia,∈Rn}\{u^a_1,u^a_2,...,u^a_q,|u^a_i,\in R^n\}{u1a,u2a,...,uqa,∣uia,∈Rn},{u1v,u2v,...,upv,∣uiv,∈Rn}\{u^v_1,u^v_2,...,u^v_p,|u^v_i,\in R^n\}{u1v,u2v,...,upv,∣uiv,∈Rn}
- 输出:每个模态的中心向量:{c1a,c2a,...,cka,∣cja,∈Rm}\{c^a_1,c^a_2,...,c^a_k,|c^a_j,\in R^m\}{c1a,c2a,...,cka,∣cja,∈Rm},{c1v,c2v,...,ckv,∣cjv,∈Rm}\{c^v_1,c^v_2,...,c^v_k,|c^v_j,\in R^m\}{c1v,c2v,...,ckv,∣cjv,∈Rm}
- 初始化距离dija=dijv=0d^a_{ij}=d^v_{ij}=0dija=dijv=0
- 对于ttt从1到TTT(迭代轮数),{a,v}\{a, v\}{a,v}中的xxx,循环
- 对于iii从1到q(p)q(p)q(p)(特征维度数目), jjj从1到kkk(聚类中心数),循环
- 更新权重:sijx=softmax(−dijx)s^x_{ij}=\textbf{softmax}(-d^x_{ij})sijx=softmax(−dijx)
- 更新中心:cjx=∑i=1psijxWjuixc^x_j=\displaystyle\sum_{i=1}^p s^x_{ij}W_ju^x_icjx=i=1∑psijxWjuix
- 更新距离:dijx=−⟨Wjuix,cjx∥cjx∥⟩d^x_{ij}=-⟨W_ju^x_i,\frac{c^x_j}{\|c^x_j\|}⟩dijx=−⟨Wjuix,∥cjx∥cjx⟩(内积)
- 结束
- 对于iii从1到q(p)q(p)q(p)(特征维度数目), jjj从1到kkk(聚类中心数),循环
- 结束
损失函数
loss=∑i=1,i≠jkmax(0,s(cja,civ)−s(cia,civ)+Δloss=\displaystyle\sum^k_{i=1,i\not=j}\text{max}(0,s(c^a_j,c^v_i)-s(c^a_i,c^v_i)+\Deltaloss=i=1,i=j∑kmax(0,s(cja,civ)−s(cia,civ)+Δ
Δ\DeltaΔ是边缘超参数,(cia,civ)(c^a_i,c^v_i)(cia,civ)为正样本音视组合,(cja,civ)(c^a_j,c^v_i)(cja,civ)为负样本音视组合,cjac^a_jcja表示负音频样本,s(⋅,⋅)s(\cdot,\cdot)s(⋅,⋅)是余弦相似度。
实施
训练
- 学习率:10−4
- 优化器:Adam
- 批大小:64
- 迭代轮数:25000
测试
聚类效果评估
- 音频数据集:ESC-50
- 图像数据集:Pascal VOC 2007
- 评价指标:准确率
- 利用提取的音频/视频表征向量训练出多类one-vs-all线性支持向量机
音视相关性评估
- 声音定位:数据集为带标注的SoundNet-Flickr,评价指标为cIoU和AUC
- 声音事件检测:DCASE2017声学挑战,评价指标为基于分段的F评分和错误率
结果
音视特征聚类效果评估:
声源定位: