深度特征融合与视频人脸识别技术解析
1. 深度特征增强
传统的深度多模态融合通常依赖于学习模态之间的特征相关性,常见的做法是在合并表示(如拼接、求和等)上堆叠多个全连接层,或者将每个模态的特征空间投影到特定任务的共同最优子空间。这些方法最终会得到一个新的共享表示用于融合,但是否有必要构建一个全新的表示呢?
为了解决这个问题,我们提出利用现有的特征空间,并设计一种融合方案。该方案基于共享表示,仅对原始特征进行修改或扰动,以提高其在现有特征空间中的可分离性。
假设存在 $k$ 个输入模态 $x_i$($i = 1, \cdots, k$),其对应的特征表示为:
$v_i = f (x_i; \theta_i)$ (9.13)
其中,$v_i \in R^{d_i}$,$f$ 可以是多层感知机(MLP)、深度神经网络(DNN)或其他特征提取器,$\theta_i$ 是相应模态的参数,这些参数可能是共享的。
我们定义一个带有参数 $\nabla$ 的函数 $g$,将所有输入模态的特征转换为一个潜在表示 $l \in R^n$:
$l = g(v_1, v_2, \cdots, v_k; \nabla)$ (9.14)
基于这个潜在表示,我们为每个模态 $i$ 计算 $M$ 个变换因子(特征缩放和平移)$s_i = [s_{i}^1, \cdots, s_{i}^M]$ 和 $t_i = [t_{i}^1, \cdots, t_{i}^M]$ :
$s_j = \sigma(W_{s}^j Tl + b_{s}^j)$ (9.15)
$t_j = \sigma(W_{t}^j Tl + b_{t}^j
超级会员免费看
订阅专栏 解锁全文
1129

被折叠的 条评论
为什么被折叠?



