Deep Multimodal Clustering for Unsupervised Audiovisual Learning

最新推荐文章于 2024-12-17 11:07:30 发布

原创最新推荐文章于 2024-12-17 11:07:30 发布 · 531 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #聚类

论文专栏收录该内容

15 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

简介

提出深度多模态聚类方法，提出一种聚类方法，使用视听一致数据集，通过优化max-margin损失来将为每个音视样本划分类别，并得出簇的中心。聚类的中间变量是一个热力图，可以观察到网络关注的位置。为音视频度量余弦相似度可以确定两者的相互关系。

论文的任务

为音视特征聚类，以分类准确率作为指标分析音视频特征聚类效果；使用热力图进行声源定位任务；可视化音频和对应声谱图，试图理解其相关性。

网络结构

在这里插入图片描述
视觉子网使用VGG16，音频子网使用VGGish。

深度多模态聚类(DMC)

输入：每个模态的特征向量： ${u1a,u2a,...,uqa,∣uia,∈Rn}\{u^a_1,u^a_2,...,u^a_q,|u^a_i,\in R^n\}$ ， ${u1v,u2v,...,upv,∣uiv,∈Rn}\{u^v_1,u^v_2,...,u^v_p,|u^v_i,\in R^n\}$
输出：每个模态的中心向量： ${c1a,c2a,...,cka,∣cja,∈Rm}\{c^a_1,c^a_2,...,c^a_k,|c^a_j,\in R^m\}$ ， ${c1v,c2v,...,ckv,∣cjv,∈Rm}\{c^v_1,c^v_2,...,c^v_k,|c^v_j,\in R^m\}$
初始化距离 $dija=dijv=0d^a_{ij}=d^v_{ij}=0$
对于 $t$ 从1到 $T$ （迭代轮数）， ${a, v\}$ 中的 $x$ ，循环
- 对于 $i$ 从1到 $q (p)$ （特征维度数目）, $j$ 从1到 $k$ （聚类中心数），循环
  - 更新权重： $sijx=softmax(−dijx)s^x_{ij}=\textbf{softmax}(-d^x_{ij})$
  - 更新中心： $cjx=∑i=1psijxWjuixc^x_j=\displaystyle\sum_{i=1}^p s^x_{ij}W_ju^x_i$
  - 更新距离： $dijx=−⟨Wjuix,cjx∥cjx∥⟩d^x_{ij}=-⟨W_ju^x_i,\frac{c^x_j}{\|c^x_j\|}⟩$ （内积）
- 结束
结束

损失函数

$loss=∑i=1,i≠jkmax(0,s(cja,civ)−s(cia,civ)+Δloss=\displaystyle\sum^k_{i=1,i\not=j}\text{max}(0,s(c^a_j,c^v_i)-s(c^a_i,c^v_i)+\Delta$
$Δ\Delta$ 是边缘超参数， $(cia,civ)(c^a_i,c^v_i)$ 为正样本音视组合， $(cja,civ)(c^a_j,c^v_i)$ 为负样本音视组合， $cjac^a_j$ 表示负音频样本， $s(⋅,⋅)s(\cdot,\cdot)$ 是余弦相似度。