Wang Y, Cui Z, Li Y. Distribution-consistent modal recovering for incomplete multimodal learning[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 22025-22034.
论文概述
本文的核心思想是提出了一种名为“分布一致的模态恢复(DiCMoR)”的新方法,用于处理不完整的多模态学习中的缺失模态问题。在多模态学习中,由于各种原因(如语音识别错误、背景噪音、传感器限制等),某些模态数据可能会丢失,这对模型的性能构成挑战。传统的方法通常直接通过深度神经网络从观测到的模态估计缺失模态,但这种方法忽略了不同模态间分布差异,导致恢复的数据与真实数据在分布上不一致。
为了解决这个问题,DiCMoR方法旨在将可用模态的分布转移到缺失模态上,以此维持恢复数据的分布一致性。具体来说,该方法设计了一种基于类别特定流的模态恢复方法,通过条件样本类别来转换跨模态分布,从而能够预测缺失模态的分布一致空间。这种方法利用了归一化流(normalizing flow)的可逆性和精确的密度估计能力,生成的数据与可用模态数据一起用于分类任务。
实验表明,DiCMoR在多种缺失模式下表现出色,优于现有的最先进方法。此外,可视化结果显示,与缺失模态相比,DiCMoR恢复的模态在分布上的差距得到了明显缓解。总的来说,DiCMoR通过在模态恢复过程中保持分布一致性,提高了多模态学习在面对模态缺失时的鲁棒性和性能。
本文用到的背景补充概述
Normalizing flow(归一化流)是一种深度学习模型,主要用于生成模型领域,其核心原理是使用可逆的变换来建模复杂数据分布。归一化流的基本思想可以概括为以下几个关键点:
- 可逆性(Invertibility):归一化流模型的核心特性之一是其变换是可逆的。这意味着,对于任何给定的数据点,都可以通过这些变换准确地映射到一个潜在空间,并且可以从潜在空间无损地重构回原始数据点。
- 变换链(Chain of Transformations):归一化流通过一系列的可逆变换(例如,仿射变换)将复杂的数据分布转换为简单的分布(通常是高斯分布)。每个变换都是简单的,但是当它们串联在一起时,可以模拟出非常复杂的分布。
- 精确的概率密度估计(Exact Density Estimation):由于变换是可逆的,归一化流可以精确地计算数据点在原始空间和潜在空间的概率密度。这是通过变换的雅可比行列式(Jacobian determinant)来实现的,它允许从潜在空间的密度映射回原始数据空间的密度。
- 灵活性和表达能力:通过增加变换的数量和复杂性,归一化流可以捕捉到数据中的复杂特征和结构。这使得它们在建模复杂分布时非常有效,尤其是在生成模型和密度估
模型结构

-
Shallow Feature Extractor
利用三个独立的时间卷积层提取三种模式的浅层特征,并将其投射到同一维度空间中。
-
Cross-Modal Distribution Transfer
X ~ ( A ) = ( F ( A ) ) − 1 ( [ F ( L ) ( X ( L ) ) + F ( V ) ( X ( V ) ) ] / 2 ) . \widetilde{\mathbf{X}}^{(A)}=\left(\mathcal{F}^{(A)}\right)^{-1}\left(\left[\mathcal{F}^{(L)}\left(\mathbf{X}^{(L)}\right)+\mathcal{F}^{(V)}\left(\mathbf{X}^{(V)}\right)\right] / 2\right) . X (A)=(F(A))−1([F(L)(X(L))+F(V)(X(V))]/2).
本文以语言( L L L)和视频模态( V V V)存在,恢复音频模态( A A A)为例:从浅层特征提取器中获取的 X ( m ) \mathbf{X}^{(m)} X(m),这里 m m m是可见模态,映射到同一个多维正态分布 Z ( m ) = F ( m ) ( X ( m ) ) \mathbf{Z}^{(m)}=\mathcal{F}^{(m)}\left(\mathbf{X}^{(m)}\right) Z(m)=F(m)(X(m))。同时,可以将 Z ( m ) \mathbf{Z}^{(m)} Z(m)输入到 ( F ( m ) ) − 1 \left(\mathcal{F}^{(m)}\right)^{-1} (F(m))−1中,生成真实分布 X ~ ( m ) ∼ p X ( m ) \widetilde{\mathbf{X}}^{(m)} \sim p_{\mathbf{X}^{(m)}} X (m)∼pX(m)的样本 X ~ ( m ) \widetilde{\mathbf{X}}^{(m)} X (m)。论文采用可用模式隐变量特征的均值作为对缺失模态隐变量分布的估计,即经过正变换后可用模态 Z ( L ) ∼ N ( μ c , Σ c ) \mathbf{Z}^{(L)} \sim \mathcal{N}\left(\mu_{c}, \boldsymbol{\Sigma}_{c}\right) Z(L)∼N(μc,Σ

本文提出了一种名为DiCMoR的新方法,通过归一化流在多模态学习中处理缺失模态问题,保持数据分布一致性。该方法利用条件样本类别转移模态分布,实验显示在多种缺失情况下优于现有技术。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



